基于均值偏差奖赏函数的放煤口控制策略研究_中国煤炭行业知识服务平台

基于均值偏差奖赏函数的放煤口控制策略研究

作者

罗开成高阳杨艺常亚军袁瑞甫
单位

郑州煤矿机械集团股份有限公司郑州煤机液压电控有限公司河南理工大学电气工程与自动化学院煤炭安全生产与清洁高效利用省部共建协同创新中心
摘要

根据液压支架的空间布局以及放煤口动作过程的特性，将放煤过程抽象为马尔科夫决策过程。同时，以强化学习为框架，在无需样本训练的情况下，利用Q-learning算法在线学习顶煤赋存状态与放煤口动作之间的映射关系，从而实现放煤口动作的最优决策。为保证放煤过程中煤岩分界面均匀下降，在Q-learning算法中设计了一种基于均值偏差的奖赏函数，并在Linux系统中建立了工作面连续进刀放煤三维仿真实验平台，对算法的有效性进行了验证。实验结果表明，基于均值偏差奖赏函数学习到的放煤口控制策略，能够保证在放顶煤过程中煤岩分界面更加均匀地下降。在工作面连续进刀放煤条件下，基于均值偏差奖赏函数Q-learning的智能放煤工艺，放煤平均奖励可达13467.8,比原Q-learning智能放煤工艺提高8.8%,比单轮顺序放煤等传统工艺提高约10%。
关键词

综合机械化开采放顶煤智能化强化学习
基金项目(Foundation)

国家重点研发计划项目(2018YFC0604502)；河南省煤矿智能开采技术创新中心支撑项目(2021YD01)；河南省科技攻关项目(212102210390)；
文章目录

1 放顶煤智能决策模型
1.1 放煤过程的马尔可夫决策过程
1.2 Q-learning算法原理
1.3 放顶煤MDP建模
1.3.1 状态空间S设计
1)顶煤赋存状态特征。
2)顶煤赋存状态。
1.3.2 动作空间A设计
1.3.3 均值偏差奖赏函数R设计
1)Rcoal奖赏函数。
2)Rdev奖赏函数。
1.4 Q-learning算法框架
2 放煤口控制模型三维仿真实验及结果分析
2.1 综放工作面进刀放煤三维仿真平台
2.2 模型参数设置
2.2.1 状态空间参数设置
2.2.2 均值偏差奖赏函数参数设置及计算
2.3 训练流程
2.4 仿真测试过程和结果分析
3 结论
引用格式

罗开成,高阳,杨艺,常亚军,袁瑞甫.基于均值偏差奖赏函数的放煤口控制策略研究[J].煤炭工程,2022,54(09):105-111.
相关文章

[1]运输巷智能无轨自移列车系统的研发和应用