2014年4月29日 星期二

欢迎访问湖北交投随岳高速!

你当前的位置:首页 >> 企业文化 >> 管理之窗 >>

一种针对千万级以上稽查数据筛查大车小标的通用数据模型设计思路

【发布人】Admin 【发布时间】2021/8/30 10:43:32 【点击次数】185 【双击滚动】

【摘要】:随着随岳运营公司稽查数据库数据存储量的上升,截止2021年7月31日,数据存储量已达835.39万条,原有的大车小标数据模型1.0版本数据对比量只能在500万条数据以下级别,无法满足现阶段稽查打逃任务的全量匹配筛查工作,本文提出一种利用分库存储组合筛查的手段来构建大车小标数据模型2.0版,将原有1.0版本的数据对比数量由百万级提升至千万级,同时实现将无金额差的车型数据提前剔除的目的。


【关键词】:随岳稽查数据库;分库存储;大车小标数据模型2.0;


前言:以目前图像稽查平台随岳公司所辖27个收费站日均产生1.65万条出口数据为例,全年数据量在600万条左右,根据阿里巴巴《Java开发手册》提出单表行数超过500万行或者单表容量超过2GB,推荐进行分库分表,从而实现性能最优解。大车小标2.0版本主要目的为弥补原有大车小标1.0版本数据模型在数据对比的样本数量不足、无法剔除无金额差的车型数据等问题,大车小标2.0数据筛查模型已在随岳运营公司《随岳运营公司“大战五个月 稽核保目标”专项行动》数据筛查阶段测试应用,排除因湖北省图像稽查系统缺陷(例如:出口虽然显示是3型货车,实际按照6型货车扣费)导致的数据误判,数据筛查准确率在95%以上。

一、大车小标数据筛查模型流程设置

为解决湖北省图像稽查平台导出的数据无蓝牌和黄牌的区分,通过将原有的一个数据筛查模型拆分为客车大车小标和货车大车小标两个筛查模型来进行客货区分,有效的提升了数据的有效性,减少了后期人工判断的样本数据量。


二、实现步骤

步骤一:通过Power Query完成第一轮清洗,清洗目的为减少无效数据,以车辆下站结果为导向进行大车小标数据模型设定的依据之一是一辆车需要通行本路段2次以上,对于只有1次通行记录的车辆将排除在外,本步骤仅以货车类大车小标举例;

IMG_256


步骤二:通过Power Query完成第二轮清洗,将有2次及以上通行记录的车辆进行车型比较,排查出一辆车有2种及以上车型缴费记录的数据,对该类型数据进行标注大车小标嫌疑;


IMG_256


步骤三:将标注大车小标嫌疑的车辆的数据进行全量数据比较,提取嫌疑车辆历史通行记录,导出数据透视表呈现嫌疑车辆排查清单。

IMG_256


三、结语

随着随岳运营公司稽查数据库数据量的与日俱增,以及稽查打逃工作的深入开展,如何在大量的存量数据中更深入的挖掘出数据有效性,如何与相邻路段单位在区域联动协查进行数据共享,一套通用的数据筛查模型是必不可少的,今后随着数据采集方式的变化对数据模型的升级改造和稽查人员在数据筛查工具的使用的熟练度都提出了更高的要求。


参考文献:

[1]李蓬实,黎伟.大数据背景下面向经管类专业的PowerQuery数据处理课程探索[J].教育现代化, 2019, v.6(91):168-169.


(监控中心 夏康)


下一篇:浅谈高速公路智慧收费系统分析和展望