申请日2017.03.20
公开(公告)日2017.07.28
IPC分类号G06K9/62; G01N33/18
摘要
本发明提供了一种基于随机森林预测污水水质数据的方法及系统,包括以下步骤:在原始训练集中有放回地随机抽取样本,构建若干样本集;根据样本集的样本以及每个样本所属的污水指标属性选择分裂属性,依据分裂属性对样本集进行训练形成决策树;根据建立的多个决策树整合构建随机森林;获取待分类数据放入随机森林进行分类,根据环境因素变量采用投票方式得出未来一段时间的污水水质数据的预测结果。本发明提供一种基于随机森林预测污水水质数据的方法及系统,目的在于建立融入了环境数据与污水水质数据的关系模型,根据实时监测所得的环境数据采用投票方式准确地预测出未来一段时间内的污水水质指标数据。
摘要附图
权利要求书
1.一种基于随机森林预测污水水质数据的方法,其特征在于,包括以下步骤:
在原始训练集中有放回地随机抽取样本,构建若干样本集;
根据样本集的样本以及每个样本所属的污水指标属性选择分裂属性,依据分裂属性对样本集进行训练形成决策树;
根据建立的多个决策树整合构建随机森林;
获取待分类数据放入随机森林进行分类,根据环境因素变量采用投票方式得出未来一段时间的污水水质数据的预测结果。
2.根据权利要求1中所述的基于随机森林预测污水水质数据的方法,其特征在于,所述根据样本集的样本以及每个样本所属的污水指标属性选择分裂属性,包括以下步骤:
选择样本属性中信息增益最大的属性为分裂属性。
3.根据权利要求2中所述的基于随机森林预测污水水质数据的方法,其特征在于,所述选择样本属性中信息增益最大的属性为分裂属性,具体包括以下步骤:
获取样本集中任意样本分类的期望信息和按特定属性划分的子集的熵;
根据获取的信息求得该特定属性的信息增益;
获取样本集中其他属性的信息增益;
选择信息增益最大的属性作为样本集的分裂属性。
4.根据权利要求3中所述的基于随机森林预测污水水质数据的方法,其特征在于,所述获取样本集中任意样本分类的期望信息的计算公式为:
I(s1,s2,……,sm)=∑Pilog2(pi)(i=1,……,m),
其中,I(s1,s2,……,sm)为期望信息,S为当前选中的样本集,m为S的分类数目,Pi≈|Si/S|,Ci为某分类标号,Pi为任意样本属于类Ci的概率,Si为分类Ci上的样本数;
所述获取按特定属性划分的子集的熵的计算公式为:
E(A)=∑(s1j+……+sij)/s*I(s1j,……,sij),
其中,E(A)为按属性A划分的子集的熵,A为当前选定的特定属性,sij为样本集S按属性A划分为j个子集s1,s2,……,sj中子集sj的类Ci的样本数;
信息增益的计算公式为:Gain(A)=I(S1,S2,……,Sm)E(A)。
5.根据权利要求1中所述的基于随机森林预测污水水质数据的方法,其特征在于,所述获取待分类数据放入随机森林进行分类,根据环境因素变量采用投票方式得出未来一段时间的污水水质数据的预测结果,包括以下步骤:
根据随机森林采用投票方式得出分类结果,其中,每个决策树根据输入环境因素变量的分类结果计算公式为:
其中,H(x)表示随机森林分类结果,hi(x)是单个决策树分类结果,Y表示分类目标,I(·)为示性函数,x为输入的环境因素变量。
6.根据权利要求5中所述的基于随机森林预测污水水质数据的方法,其特征在于,还包括以下步骤:
根据原始训练集中有放回地随机抽取样本构建分类树,其随机向量序列为{θk,k=1,2,…,K},K为抽取样本的数量;
将每次未被抽到样本组成与分类树数量相同的袋外数据。
7.根据权利要求6中所述的基于随机森林预测污水水质数据的方法,其特征在于,所述获取待分类数据放入随机森林进行分类,根据环境因素变量采用投票方式得出未来一段时间的污水水质数据的预测结果,还包括以下步骤:
根据袋外数据,采用RF分类模型对投票方式得出的分类结果进行检验并完成最终的预测结果。
8.根据权利要求2中所述的基于随机森林预测污水水质数据的方法,其特征在于,所述根据样本集的样本以及每个样本所属的污水指标属性选择分裂属性也基于基尼指数、最小长度描述以及特征加权算法。
9.一种基于随机森林预测污水水质数据的系统,其特征在于,包括样本集构建模块、训练模块、随机森林构建模块以及预测模块;
所述样本集构建模块,用于在原始训练集中有放回地随机抽取样本,构建若干样本集;
所述训练模块,用于根据样本集的样本以及每个样本所属的污水指标属性选择分裂属性,依据分裂属性对样本集进行训练形成决策树;
所述随机森林构建模块,用于根据建立的多个决策树整合构建随机森林;
所述预测模块,用于获取待分类数据放入随机森林进行分类,根据环境因素变量采用投票方式得出未来一段时间的污水水质数据的预测结果。
说明书
基于随机森林预测污水水质数据的方法及系统
技术领域
本发明涉及污水处理技术领域,特别涉及一种基于随机森林预测污水水质数据的方法及系统。
背景技术
环境大数据可以说是错综复杂,地域不同、时间不同、风俗习惯的差异或政治经济方面的突发状况都有可能造成环境大数据的变化。所以,环境大数据其主要特点为:1)类别多而广,比如可按地域分类,按时间序列分析,还要考虑人文差异对当地环境指标的影响;2)数据量大,拿实时监控的城市污水数据来举例,其数据流动态增长,长度可能无限;3)不确定性高,不论是自然环境中指标的不确定性还是由于人类活动对环境的影响,都有一定的不确定性。
面对具有类别多,数据量大,不确定性等特点的环境实时数据以及污水水质数据。如何分析这两类实时数据的关系以及如何通过这些保存的历史数据来预测污水水质指标的数据一直是个难题。因为这些实时数据过于多而杂,如果简单的将所有的数据放在一起分析,不但很难建立模型结构来进行较为精准的预测,而且使得以后再利用根据预测出的污水水质情况来进行智能污水处理时的效率会大打折扣。
发明内容
本发明提供一种基于随机森林预测污水水质数据的方法及系统,目的在于建立融入了环境数据与污水水质数据的关系模型,根据实时监测所得的环境数据采用投票方式准确地预测出未来一段时间内的污水水质指标数据,
为解决上述问题,本发明实施例提供一种基于随机森林预测污水水质数据的方法,包括以下步骤:
在原始训练集中有放回地随机抽取样本,构建若干样本集;
根据样本集的样本以及每个样本所属的污水指标属性选择分裂属性,依据分裂属性对样本集进行训练形成决策树;
根据建立的多个决策树整合构建随机森林;
获取待分类数据放入随机森林进行分类,根据环境因素变量采用投票方式得出未来一段时间的污水水质数据的预测结果。
作为一种实施方式,所述根据样本集的样本以及每个样本所属的污水指标属性选择分裂属性,包括以下步骤:
选择样本属性中信息增益最大的属性为分裂属性。
作为一种实施方式,所述选择样本属性中信息增益最大的属性为分裂属性,具体包括以下步骤:
获取样本集中任意样本分类的期望信息和按特定属性划分的子集的熵;
根据获取的信息求得该特定属性的信息增益;
获取样本集中其他属性的信息增益;
选择信息增益最大的属性作为样本集的分裂属性。
作为一种实施方式,所述获取样本集中任意样本分类的期望信息的计算公式为:
I(s1,s2,……,sm)=ΣPilog2(pi)(i=1,……,m),
其中,I(s1,s2,……,sm)为期望信息,S为当前选中的样本集,m为S的分类数目,Pi≈|Si/|S|,Ci为某分类标号,Pi为任意样本属于类Ci的概率,Si为分类Ci上的样本数;
所述获取按特定属性划分的子集的熵的计算公式为:
E(A)=Σ(s1j+……+sij)/s*I(s1j,……,sij),
其中,E(A)为按属性A划分的子集的熵,A为当前选定的特定属性,sij为样本集S按属性A划分为j个子集s1,s2,……,sj中子集sj的类Ci的样本数;
信息增益的计算公式为:Gain(A)=I(S1,S2,……,Sm)E(A)。
作为一种实施方式,所述获取待分类数据放入随机森林进行分类,根据环境因素变量采用投票方式得出未来一段时间的污水水质数据的预测结果,包括以下步骤:
根据随机森林采用投票方式得出分类结果,其中,每个决策树根据输入环境因素变量的分类结果计算公式为:
其中,H(x)表示随机森林分类结果,hi(x)是单个决策树分类结果,Y表示分类目标,I(·)为示性函数,x为输入的环境因素变量。
作为一种实施方式,还包括以下步骤:
根据原始训练集中有放回地随机抽取样本构建分类树,其随机向量序列为{θk,k=1,2,…,K},K为抽取样本的数量;
将每次未被抽到样本组成与分类树数量相同的袋外数据。
作为一种实施方式,所述获取待分类数据放入随机森林进行分类,根据环境因素变量采用投票方式得出未来一段时间的污水水质数据的预测结果,还包括以下步骤:
根据袋外数据,采用RF分类模型对投票方式得出的分类结果进行检验并完成最终的预测结果。
作为一种实施方式,所述根据样本集的样本以及每个样本所属的污水指标属性选择分裂属性也基于基尼指数、最小长度描述以及特征加权算法。
本发明还提供了一种基于随机森林预测污水水质数据的系统,包括样本集构建模块、训练模块、随机森林构建模块以及预测模块;
所述样本集构建模块,用于在原始训练集中有放回地随机抽取样本,构建若干样本集;
所述训练模块,用于根据样本集的样本以及每个样本所属的污水指标属性选择分裂属性,依据分裂属性对样本集进行训练形成决策树;
所述随机森林构建模块,用于根据建立的多个决策树整合构建随机森林;
所述预测模块,用于获取待分类数据放入随机森林进行分类,根据环境因素变量采用投票方式得出未来一段时间的污水水质数据的预测结果。
本发明相比于现有技术的有益效果在于:在污水的处理环节中融入诸如季节、天气、气温等环境数据,消除环境数据对污水水质指标数的定性和定量的影响;对多个决策树的分类结果采用投票方式获取预测结果,并且通过RF分类模块对其进行检验并获得最终的预测结果;建立融入了环境数据与污水水质数据的关系模型,再加上实时监测所得的环境数据就可以很方便且较为准确地预测出未来一段时间内的污水水质指标数据,从而企业可以根据实时监测的环境和污水数据对未来一段时间内污水水质指标的数据进行预测,这样的话,企业就可以根据预测的水质数据,做到基于预测模型的泵站流量控制,以及确定污水处理时投放微生物、药剂的量和时间点,克服了传统的污水处理时凭经验判断泵站流量和添加药剂的人工操作,为污水的智能处理提供了强大的助力