一
研究背景
海量数据挖掘分析是综采工作面智能化的重要组成部分,对实现综采数据高效利用具有重要意义。许多学者利用人工智能技术挖掘综采工作面设备群海量数据的潜在价值。但由于综采工作面单位时间内数据采集体量大,易受短时电磁干扰等影响,无法保证数据采集的实时性与完整性,容易在采集过程中出现异常数据。通过传统单机计算引擎进行数据的清洗和挖掘分析,读写效率和计算性能的限制使得数据清洗和模型构建速度缓慢,导致决策指令下发具有滞后性,限制了模型从实验室到工作现场实际应用的进一步转换。针对上述问题,本文提出一种综采工作面海量数据挖掘分析平台设计方案。
二
平台总体架构
综采工作面海量数据挖掘分析平台由数据源层、数据采集存储层、数据挖掘层、前端应用层组成,如下图所示。
三
平台关键技术
1、 海量数据实时采集存储技术
工作面传统数据采集系统的数据协议不一且易受现场环境扰动,无法保证数据采集的实时性与完整性,因此使用海量数据采集存储技术完成工作面海量数据的初步汇聚与累积,技术实现流程如下图所示。
2、 海量数据清洗技术
利用大数据组件Hive数据引擎,使用HQL语句编写数据处理条件,通过where条件筛选先剔除不符合实际工况数据的异常值和缺失值,再根据时间粒度统计每段时间内各类数据的采集频次、总值和均值,创建包含以上属性的新数据表,将HQL通过语义解析并优化逻辑执行计划后生成MapReduce任务,提交至Yarn资源管理器执行批处理程序,待清洗过程执行完成后使用insert方法将所有数据存入新数据表并导入HDFS分布式文件系统中。同时将数据表元数据存入MySQL,下次访问可直接根据文件存储路径读取该表内容,避免生成新的MapReduce批处理程序,从而提高数据查询的响应速度,保证后期数据建模运行准确率的同时节省服务器存储空间。
3、 海量数据挖掘技术
针对传统单机计算引擎无法高效处理工作面海量高价值、低密度工况数据的问题,使用海量数据挖掘技术实现数据挖掘模型在实际生产中的实时调度,技术实现流程如下图所示。
4、前端实时可视化技术
前端应用层基于Java前端框架开发工作面智能管控界面,通过后端集成平台各类数据库API,利用气泡图、热力图、实时线性图等可视化组件关联后端数据库,通过AJAX前后端交互技术定时与后端数据交互并更新部分前端内容,远程通过井上煤矿智能管控中心实时查看各类设备状态和井下人员位置等信息。
通过关联后端开发组件构建数据挖掘任务,将任务提交至流程引擎生成后端编程代码,根据调度周期及其他环境参数设计HTML提交表单,人工输入各类调度参数并提交至后端定时调度数据挖掘模型,对新的实时数据进行模型应用,通过可视化界面将设备运行状态反馈给管理层及时调整决策策略。
四
平台测试
1、数据采集存储性能
为验证平台的数据采集存储性能,设置数据采集周期为200 ms,对某工作面液压支架立柱压力数据进行采集与加载,通过数据库可视化编程界面随机查询在2月28号采集到的某液压支架立柱压力数据,查询结果如下图所示。通过Time字段的时间戳能看到每秒内进行5次数据采集,通过Value字段可看到采集过程中没有出现缺失值,不会因为网络延时和网络阻塞导致数据漏采、局部采集顺序紊乱等问题,充分保证了数据采集过程的实时性与完整性,满足工作面各类监测数据采集的实际需求。
2、数据清洗性能
为验证平台数据清洗性能,分别使用平台中Hive数据引擎和单机MySQL查询引擎对不同体量数据清洗速度进行对比测试,结果如下图所示。可看出当数据量在10万条到2千万条区间内,Hive数据引擎和单机MySQL查询引擎的数据清洗时间相差不大,均维持在20 s左右;随着数据量的增加,单机MySQL查询引擎的数据清洗时间呈线性增长趋势,而Hive数据引擎的数据清洗时间可维持在30 s内,清洗效率约为单机MySQL查询引擎的5倍。
3、 数据挖掘性能
为验证平台的数据挖掘性能,分别使用平台中Spark分布式挖掘引擎和单机Python挖掘引擎对不同体量数据挖掘速度进行对比测试,结果如下图所示。可看出当数据量在10万条以内时,Spark分布式挖掘引擎和单机Python挖掘引擎的数据挖掘时间均可维持在10 s内;当数据量增加至100万条时,单机Python挖掘引擎的数据挖掘耗时60 s,挖掘速度过慢;当数据量增加至200万条时,Spark分布式挖掘引擎的数据挖掘时间依然能稳定在20 s左右,数据挖掘效率是单机Python挖掘引擎的4倍。
引用格式
王宏伟,杨焜,付翔,等. 综采工作面海量数据挖掘分析平台设计[J]. 工矿自动化,2023,49(5):30-36,126.
WANG Hongwei, YANG Kun, FU Xiang, et al. Massive data mining and analysis platform design for fully mechanized working face[J]. Journal of Mine Automation,2023,49(5):30-36,126.
作者联系方式
王宏伟(1977—),女,黑龙江勃利人,教授,博士,博士研究生导师,主要研究方向为煤机装备智能化、人工智能与5G+智慧矿山等,E-mail:lntuwhw@126.com。通信作者:杨焜(1998—),男,山西长治人,硕士研究生,主要研究方向为工业互联网与大数据开发,E-mail:941077751@qq.com。