您现在的位置: 中国污水处理工程网 >> 技术转移 >> 正文

基于强化学习污水处理控制方法

发布时间:2019-2-20 14:26:36  中国污水处理工程网

  申请日2018.09.04

  公开(公告)日2019.02.12

  IPC分类号G05B13/04

  摘要

  本发明提供了一种基于强化学习的污水处理控制方法,包括如下步骤:本发明通过三阶段在真实场景中训练强化学习模型的方式,能有效避免现有的训练强化学习模型所需要的收集数据、建立虚拟环境的过程,从而有效降低企业在应用强化学习的方式进行自动控制时所需的成本,方便用户完成从传统控制倒强化学习控制的过程。

 
  权利要求书

  1.一种基于强化学习的污水处理控制方法,其特征在于:包括如下步骤:

  1).模型训练:在现场控制器控制的过程中,获取现场控制器的输入信号及输出指令,并根据获取的输入信号及N个时序前的输出指令对环境模型建模;

  2).策略调整:在现场控制器控制的过程中,获取现场控制器的输入信号至环境模型,环境模型输出作为策略模型的输入,将现场控制器的输出指令和策略模型的输出指令合并为最终输出指令输出控制;

  3).介入控制:停止现场控制器,采用环境模型获取输入、环境模型输出作为策略模型的输入、策略模型输出指令进行控制。

  2.如权利要求1所述的基于强化学习的污水处理控制方法,其特征在于:所述对环境模型建模采用RNN算法。

  3.如权利要求1所述的基于强化学习的污水处理控制方法,其特征在于:所述环境模型输出为概率值向量。

  4.如权利要求1所述的基于强化学习的污水处理控制方法,其特征在于:所述步骤2)中,策略模型采用如下方式更新:

  a.获取当前环境模型输出,计算当前环境模型输出与前一模拟输出的误差值;

  b.根据误差值更新值函数;

  c.将当前环境模型输出代入至值函数中计算当前输出指令值;

  d.将当前输出指令值代入至环境模型中计算当前模拟输出;

  e.当前模拟输出更新至前一模拟输出,将当前输出指令发送,然后进入下一时序,等待获取环境模型输出。

  5.如权利要求1所述的基于强化学习的污水 处理控制方法,其特征在于:所述步骤2)中,将现场控制器的输出指令和策略模型的输出指令合并为最终输出指令采用如下方式:

  a.获取现场控制器的输出指令和策略模型的输出指令;

  b.将现场控制器的输出指令和策略模型的输出指令中的数值取出为现场控制器输出指令数值和策略模型输出指令数值;

  c.将策略模型输出指令数值乘以系数N后更新为新的策略模型输出指令数值;

  d.将现场控制器输出指令数值乘以系数(1-N)后更新为新的现场控制器输出指令数值;

  e.将新的现场控制器输出指令数值和新的策略模型输出指令数值叠加得到输出指令叠加值;

  f.将输出指令叠加值封装为输出指令发送指令。

  6.如权利要求5所述的基于强化学习的污水处理控制方法,其特征在于:所述N为0.1~0.2。

  7.如权利要求5所述的基于强化学习的污水处理控制方法,其特征在于:所述N初始为0.1,每经过M次将现场控制器的输出指令和策略模型的输出指令合并为最终输出指令的步骤后,N自加0.005直到N为0.2。

  8.如权利要求7所述的基于强化学习的污水处理控制方法,其特征在于:所述M取值由用户设定,但限定为10~30。

  说明书

  一种基于强化学习的污水处理控制方法

  技术领域

  本发明涉及一种基于强化学习的污水处理控制方法。

  背景技术

  目前,强化学习在工业控制中的应用逐渐增多,但一般都限于特定的模型,其主要原因在于强化学习的训练需要环境支持,而在很多污水处理控制方面,完全模拟真实场景的环境所需要的计算量远远大于强化学习模型训练本身所需要的计算量,导致得不偿失,而且就目前的企业技术发展而言,原始的数据积累也很成问题。

  发明内容

  为解决上述技术问题,本发明提供了一种基于强化学习的污水处理控制方法,该基于强化学习的污水处理控制方法通过三阶段在真实场景中训练强化学习模型的方式,能有效避免现有的训练强化学习模型所需要的收集数据、建立虚拟环境的过程。

  本发明通过以下技术方案得以实现。

  本发明提供的一种基于强化学习的污水处理控制方法,包括如下步骤:

  1).模型训练:在现场控制器控制的过程中,获取现场控制器的输入信号及输出指令,并根据获取的输入信号及N个时序前的输出指令对环境模型建模;

  2).策略调整:在现场控制器控制的过程中,获取现场控制器的输入信号至环境模型,环境模型输出作为策略模型的输入,将现场控制器的输出指令和策略模型的输出指令合并为最终输出指令输出控制;

  3).介入控制:停止现场控制器,采用环境模型获取输入、环境模型输出作为策略模型的输入、策略模型输出指令进行控制。

  所述对环境模型建模采用RNN算法。

  所述环境模型输出为概率值向量。

  所述步骤2)中,策略模型采用如下方式更新:

  a.获取当前环境模型输出,计算当前环境模型输出与前一模拟输出的误差值;

  b.根据误差值更新值函数;

  c.将当前环境模型输出代入至值函数中计算当前输出指令值;

  d.将当前输出指令值代入至环境模型中计算当前模拟输出;

  e.当前模拟输出更新至前一模拟输出,将当前输出指令发送,然后进入下一时序,等待获取环境模型输出。

  所述步骤2)中,将现场控制器的输出指令和策略模型的输出指令合并为最终输出指令采用如下方式:

  a.获取现场控制器的输出指令和策略模型的输出指令;

  b.将现场控制器的输出指令和策略模型的输出指令中的数值取出为现场控制器输出指令数值和策略模型输出指令数值;

  c.将策略模型输出指令数值乘以系数N后更新为新的策略模型输出指令数值;

  d.将现场控制器输出指令数值乘以系数(1-N)后更新为新的现场控制器输出指令数值;

  e.将新的现场控制器输出指令数值和新的策略模型输出指令数值叠加得到输出指令叠加值;

  f.将输出指令叠加值封装为输出指令发送指令。

  所述N为0.1~0.2。

  所述N初始为0.1,每经过M次将现场控制器的输出指令和策略模型的输出指令合并为最终输出指令的步骤后,N自加0.005直到N为0.2。

  所述M取值由用户设定,但限定为10~30。

  本发明的有益效果在于:通过三阶段在真实场景中训练强化学习模型的方式,能有效避免现有的训练强化学习模型所需要的收集数据、建立虚拟环境的过程,从而有效降低企业在应用强化学习的方式进行自动控制时所需的成本,方便用户完成从传统控制倒强化学习控制的过程。

相关推荐
项目深度追踪
数据独家提供
服务开通便捷 >