申请日2017.01.12
公开(公告)日2017.06.20
IPC分类号G06K9/62; G06N3/04
摘要
本发明公开了一种基于加权极限学习机集成算法的污水处理故障诊断方法,包括:采用集成算法Adaboost作为分类学习的整体算法框架;采用改进后的样本权值初始化方法;采用加权极限学习机作为基分类器,通过集成算法迭代更新样本权值的特性,处理不平衡数据,结合核函数的非线性映射来提高数据线性可分的程度。该方法在集成算法的基础上采用了加权极限学习机作为基分类器,可以实现多个类别的不平衡数据分类,增强了对不平衡数据的分类性能,有效提高了污水处理过程中故障诊断的准确性。
权利要求书
1.一种基于加权极限学习机集成算法的污水处理故障诊断方法,其特征在于,所述方法包括:
S1、采用集成学习算法AdaBoost作为不平衡数据分类的整体算法框架,将不平衡数据的最优类分布和最优类代表样例的寻找与集成学习中的多次采样技术融合,并生成集成分类器;
S2、采用改进后的集成算法权值初始化方法进行初始化;
S3、采用改进后的加权极限学习机作为集成学习算法的基分类器进行迭代;
S4、输入污水处理过程中产生的样本数据,设置集成算法的基分类器个数T,基分类器的最优核宽度γ,对应的最优正则化系数C,进行迭代,对输入的污水数据进行分类即故障诊断。
2.根据权利要求1所述的基于加权极限学习机集成算法的污水处理故障诊断方法,其特征在于,所述步骤S1具体包括:
S11、给定污水样本集{(x1,y1),(x2,y2),…,(xN,yN)},其中xi∈X表示X的第i个样本,yi表示其对应的类别标签,yi∈Y={1,2,…,k},k表示总共有k个类别;
S12、初始化训练样本xi的权重分布D(i):i=1,2,…,N;
S13、训练弱分类器;
S14、得到集成分类器。
3.根据权利要求2所述的基于加权极限学习机集成算法的污水处理故障诊断方法,其特征在于,所述步骤S13具体包括:
S131、设置集成算法的基分类器个数T;
S132、使用加权核极限学习机作为基分类器ht对训练样本进行训练,得到训练模型和训练误差εt,若样本分类正确则不计入误差,若所有样本都被正确分类则误差为0,若样本分类错误则计入误差;
S133、若εt≥0.5,则退出迭代;
S134、计算基分类器ht的权重
S135、调整样本下一轮迭代的权值分布Dt+1,Dt+1的调整规则如下所示:
Dt+1(i)=Dt(i)exp(-αt*I(xi)),
4.根据权利要求2所述的基于加权极限学习机集成算法的污水处理故障诊断方法,其特征在于,所述集成分类器为:
5.根据权利要求1所述的基于加权极限学习机集成算法的污水处理故障诊断方法,其特征在于,所述改进后的集成算法权值初始化方法包括:第一自动加权方案W1和第二自动加权方案W2,
其中,所述第一自动加权方案W1具体为:
所述第二自动加权方案W2具体为:
其中Count(k)为训练样本中类别为k对应的样本数量。
6.根据权利要求1所述的基于加权极限学习机集成算法的污水处理故障诊断方法,其特征在于,所述改进后的加权极限学习机的隐藏层输出权重可表示为:
其中,H为隐藏层输出矩阵,T为输出层输出矩阵,N为样本个数,L为隐藏层的个数,其中W是定义的一个N×N的对角矩阵,每一个主对角元素Wii都对应着一个样本xi,不同类别的样本将会自动分配不同的权值。
7.根据权利要求5所述的基于加权极限学习机集成算法的污水处理故障诊断方法,其特征在于,所述改进后的加权极限学习机在权值的分配方式上采用AdaBoost的权值更新公式,即Wii=Dt+1(i)=Dt(i)exp(-αt*I(xi)),
8.根据权利要求1所述的基于加权极限学习机集成算法的污水处理故障诊断方法,其特征在于,所述步骤S4具体为:
设置集成分类器的基分类器个数T=20,并采用网格参数寻优的方式寻找满足算法最优性能的基分类器的核宽度γ和正规化系数C,γ的寻优范围为{2-18,2(-18+step),…,220},step=0.5;C的寻优范围为{2-18,2(-18+step),…,250},其中,step=0.5。
说明书
基于加权极限学习机集成算法的污水处理故障诊断方法
技术领域
本发明涉及污水处理故障诊断的技术领域,具体涉及一种基于加权极限学习机集成算法的污水处理故障诊断方法。
背景技术
污水处理是一个复杂的、影响因素非常多的生化过程,污水处理厂难以保持长期稳定的运行,发生故障容易引起出水水质不达标、运行费用增高和环境二次污染等严重问题,所以需要对污水处理厂运行状态进行监控,诊断出运行故障并及时处理。
污水处理过程的故障诊断实际是一个模式识别的问题,分类过程中常常还会遇到污水数据集的分布不均衡问题。传统的机器学习方法容易使分类准确率偏向于多数类,而实际分类中更加看重的是少数类的分类准确率,即故障类的分类准确率。及时准确的发现故障可以很大程度上减少污水处理厂的损失,另一方面提高污水处理厂的工作效率。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于加权极限学习机集成算法的污水处理故障诊断方法。
本发明的目的可以通过采取如下技术方案达到:
一种基于加权极限学习机集成算法的污水处理故障诊断方法,所述方法包括:
S1、采用集成学习算法AdaBoost作为不平衡数据分类的整体算法框架,将不平衡数据的最优类分布和最优类代表样例的寻找与集成学习中的多次采样技术融合,并生成集成分类器;
S2、采用改进后的集成算法权值初始化方法进行初始化;
S3、采用改进后的加权极限学习机作为集成学习算法的基分类器进行迭代;
S4、输入污水处理过程中产生的样本数据,设置集成算法的基分类器个数T,基分类器的最优核宽度γ,对应的最优正则化系数C,进行迭代,对输入的污水数据进行分类即故障诊断。
进一步地,所述步骤S1具体包括:
S11、给定污水样本集{(x1,y1),(x2,y2),…,(xN,yN)},其中xi∈X表示X的第i个样本,yi表示其对应的类别标签,yi∈Y={1,2,…,k},k表示总共有k个类别;
S12、初始化训练样本xi的权重分布D(i):i=1,2,…,N;
S13、训练弱分类器;
S14、得到集成分类器。
进一步地,所述步骤S13具体包括:
S131、设置集成算法的基分类器个数T;
S132、使用加权核极限学习机作为基分类器ht对训练样本进行训练,得到训练模型和训练误差εt,若样本分类正确则不计入误差,若所有样本都被正确分类则误差为0,若样本分类错误则计入误差;
S133、若εt≥0.5,则退出迭代;
S134、计算基分类器ht的权重
S135、调整样本下一轮迭代的权值分布Dt+1,Dt+1的调整规则如下所示:
Dt+1(i)=Dt(i)exp(-αt*I(xi)),
进一步地,所述集成分类器为:
进一步地,所述改进后的集成算法权值初始化方法包括:第一自动加权方案W1和第二自动加权方案W2,
其中,所述第一自动加权方案W1具体为:
所述第二自动加权方案W2具体为:
其中Count(k)为训练样本中类别为k对应的样本数量。
进一步地,其特征在于,所述改进后的加权极限学习机的隐藏层输出权重可表示为:
其中,H为隐藏层输出矩阵,T为输出层输出矩阵,N为样本个数,L为隐藏层的个数,其中W是定义的一个N×N的对角矩阵,每一个主对角元素Wii都对应着一个样本xi,不同类别的样本将会自动分配不同的权值。
进一步地,所述改进后的加权极限学习机在权值的分配方式上采用AdaBoost的权值更新公式,即Wii=Dt+1(i)=Dt(i)exp(-αt*I(xi)),
进一步地,所述步骤S4具体为:
设置集成分类器的基分类器个数T=20,并采用网格参数寻优的方式寻找满足算法最优性能的基分类器的核宽度γ和正规化系数C,γ的寻优范围为{2-18,2(-18+step),…,220},step=0.5;C的寻优范围为{2-18,2(-18+step),…,250},其中,step=0.5。
本发明相对于现有技术具有如下的优点及效果:
1)本发明方法采用AdaBoost算法作为整体算法框架,不平衡数据的最优类分布和最优类代表样例的寻找可以与集成学习中的多次采样技术融合在一起,避免额外的学习代价。此外,多个分类器的集成可以防止过拟合,降低单分类器在处理不平衡数据时可能产生的偏差。
2)本发明方法采用改进后的集成算法权值初始化方法,使整个算法能够更好的解决数据类间分布不平衡问题。
3)采用加权极限学习机的分类器作为集成学习算法的基分类器,加快分类学习速度,从而实现对污水处理厂运行状态实时准确地监测。