第五次全国经济普查是一项重大的国情国力调查,也是一项庞大的社会系统工程,其中单位清查工作是经济普查工作的一项重要基础性工作,是准确界定普查对象类型、保障普查工作顺利实施的关键。
清查底册是进行单位清查的重要支撑环节,直接影响普查登记成效和数据质量。《全国经济普查条例》《国务院关于开展第五次全国经济普查的通知》中明确提到在清查和正式普查开始前,需根据地方民政、税务、市场监管等具备单位设立审批、登记职能的部门提供的审批或者登记的单位资料,形成经济普查单位名录。
清查底册特征
1.重要程度高:清查底册是单位清查的重要线索,清查之后形成的单位名录是进行正式普查的直接依据,一份准确详细的单位名录是普查工作取得成功的关键。
2.单位类型多样:单位一般分为企业法人单位及产业单位、非企业法人单位(民政、编办、教育等部门审批的非企业法人单位)和个体工商户三种。
3.数据多源:清查底册的来源局包括地方编制、民政、税务、市场监管以及其他具有单位设立审批、登记职能的部门,数据多源,信息重复率较高。
4.数据量大:各级政府部门提供的单位资料中普查对象数量、字段众多,且各部门提供的资料具有一定重复率,整体清洗工作量较大。
5.清洗程序复杂:由于单位类型多样、数出多源、数据量大等特征,清查工作程序需谨慎严密,保证数据信息不重不漏、尽可能多地保留有用信息,如地址、电话等。
工作方案
数喆数据作为国内领先为数据要素市场提供全产业链技术服务的支撑机构,积极响应和创新底册清洗工作的方式方法,采用传统手段与AI技术相结合的方式,为“五经普”底册清洗工作提供新思路。
一是数据整合。将基本单位名录库数据与民政、税务、市场和编办等行政单位提供的数据资料合并,确保单位清查底册的“全面性”。
二是删减剔重。对合并后的底册进行无效数据删减、重复数据剔除,确保单位清查底册的“准确性”。
三是数据补充。利用我司内外部数据资源,对底册缺失数据进行补充,确保单位清查底册信息的“完整性”。
四是有序分割。将清查底册按区县进行分割,确保单位清查底册的“高效性”。
五是人机合审。利用单位清查比对程序以及人工审核,进一步确保单位清查底册的“精准性”。
技术路线
制定清洗策略。充分研析数据逻辑关联(包括主外键关联关系、层级关系和条件关系),针对性的制定逻辑严密的清洗算法规则。
模型训练。利用Python、Java等工具引擎,搭建清洗环境,灵活嵌入逻辑规则和优化算法,自动化地进行多库数据匹配、比对与集成,利用数据比对算法、NLP、AI等技术进一步规范、修正以及效果验证,并进一步判断规则适用性。
数据验证与测试。对集成清洗后的数据进行系统验证和测试,判断清洗后的数据是否符合预期结果和业务逻辑,确保底测数据的全面性、准确性和可用性。
数喆优势:
成熟的清洗规则。数喆数据基于“四经普”和“五经普”试点工作经验,已形成适应各地底册清洗可复用的清洗规则,可供后续工作使用,提高工作效率。
自动化。利用灵活匹配代码,自动化实现数据快速集成、识别、规范与修正。
高效性。数据比对模型、NLP文本处理等技术可以在短时间内处理大规模的数据集,利用AI技术优化模型算法,提高信息保有率。
准确性。使用高级算法和模式识别能力,可以更准确地检测和修复数据中的问题。
方案可扩展。快速高效提供地方定制化底册清洗解决方案。(王刚)
责任编辑:曾裕忠