申请日2014.04.29
公开(公告)日2014.07.30
IPC分类号G05B19/418
摘要
本发明涉及一种用于污水处理厂的曲线报表数据采样方法,与现有技术相比解决了浏览器大数据查询导致服务器计算资源过载以及数据传输的带宽限制的缺陷。本发明包括以下步骤:定义采样策略;服务器解析采样策略;判断采集数据量;以采样策略为基础进行数据采样;绘制曲线报表。本发明能够使服务器端迅速的从海量信号数据中抽样出代表信号特征的关键信号。
权利要求书
1.一种用于污水处理厂的曲线报表数据采样方法,其特征在于,包括以下步骤:
11)定义采样策略,定义自定义特征信号抽取函数以及取样点个数,浏览器根据浏览器窗口分辨率设定信号数据采样输出个数;
12)服务器解析采样策略,服务器解析浏览器发来的Json格式采样策略脚本,提取特征采样函数,对特征采样函数表达式做语法语义检查,若表达式无误,则将保存策略以及配置参数;
13)判断采集数据量,检索符合条件的数据,若检索出的数据个数小于实际需要信号点个数则直接输出数据,否则对检索出的数据按照采样策略进行采样;
14)以采样策略为基础进行数据采样;
15)绘制曲线报表,对数据输出集合SETsamp编码,以Json格式将数据返回给浏览器,浏览器根据输出数据集合SETsamp绘制曲线。
2.根据权利要求1所述的一种用于污水处理厂的曲线报表数据采样方法,其特征在于,所述的定义采样策略包括以下步骤:
21)定义特征信号抽取函数,特征信号抽取函数以函数表达式表示,用户根据给出的函数集合定义特征函数;
22)计算出特征函数对应的特征点取样个数;
23)定义平均时间间隔采样点数;
24)浏览器根据窗口大小,自行定义输出点数;
25)浏览器生成Json格式采样策略并发送到服务器端,其中Json脚本定义采样策略格式定义如下:
strategy_id为采样策略号;avg为平均时间间隔采样点数;spec_cnt为全部特征信号采样点数;output为全部采样输出点数;
spec为特征采样策略集合,其中:spec_id为特征采样策略标识;spec_func为特征采样函数表达式;spec_samp为基于该特征函数表达式选取点数。
3.根据权利要求1所述的一种用于污水处理厂的曲线报表数据采样方法,其特征在于,所述的以采样策略为基础进行数据采样包括以下步骤:
31)将符合条件的数据按时间跨度分成N个数据子集合,其计算公式如下:
N=(Oc*Sc/Tc) +1,其中N为数据分块个数、Oc为服务器得到数据输出个数、Tc为服务器检索数据得到符合检索条件信号数量、Sc为采样策略需要信号点数;
32)对数据子集合分别按平均时间间隔采样得到平均时间间隔采样数据组,先计算采样间隔Ts,公式如下:
Ts=Tgap/avg,其中Tgap为计算数据子集合中信号发生时间跨度,avg为平均时间间隔采样点数;
确定时间间隔Ts后,针对数据子集合信号按时间间隔Ts采样,得到数据子集合平均时间间隔采样采样数据组SETavg;
33)对数据子集合按照特征策略做数据特征采样得到特征采样数据,
首先,对数据子集合运用特征函数采样得到输出结果集合Tempsamp;
其次,若获得的集合中信号个数大于指定特征信号采样个数,则先按照特征函数的语义挑选信号,再按照权重对数据抽样;
最后,输出特征采样信号集合SETspec;
34)对每个数据集合按信号发生先后时间顺序合并SETavg、SETspec,得到该数据样本子集合SETsamp。
4.根据权利要求3所述的一种以采样策略为基础进行数据采样的系统,其特征在于:包括数据划分管理模块(1)、作业调试模块(2)、算法池(3)和数据整合模块(4);
所述的数据划分管理模块(1)用于将采样数据按照采样策略划分为多个数据子集合,并对各数据子集合管理;所述的作业调试模块(2)用于对计算池进行管理,为计算池每个计算单元根据采样策略配置算法,并对计算单元调度、分配、以及释放等管理操作;所述的算法池(3)用于设置一组并行独立的计算单元,各计算单元算法由作业调度模块按照采样策略配置;所述的数据整合模块(4)用于收集计算池各计算单元输出结果,按任务分发输出结果;
所述的数据划分管理模块(1)和作业调试模块(2)分别与算法池(3)相连,算法池(3)与数据整合模块(4)相连。
说明书
一种用于污水处理厂的曲线报表数据采样方法
技术领域
本发明涉及曲线报表数据采样技术领域,具体来说是一种用于污水处理厂的曲线报表数据采样方法。
背景技术
在工业远程监控系统中,工业曲线的绘制是在浏览器向服务器发送查询请求,获取数据以后在浏览器执行绘制的。工业生产过程中需要高频率连续不断地采集和保存海量的工业信号数据,并需要追溯以及检索这些数据用以诊断生产过程中的实际技术问题。特别是污水处理行业中,一个污水处理厂需要每秒采集近千节点数据,需要追溯的数据往往跨时间为1年以上,而其中关键技术指标信息,如PH值、NH3-N、BOD、COD、电流等信号信息尤为重要,企业需要通过这些信息数据绘制的曲线来判断信号点异常,从而定位问题发生时间点。
现有技术中所采取的技术为直接检索数据库,将符合内容的数据全部展示。这种方法对于采集频率高,数据时间跨度大的信号数据则带来计算机系统资源紧张,系统性能下降等问题,不适合污水处理行业。污水处理中需要查询1年以上TP、pH、BOD、COD等常用8条曲线查询,数据采样频率为1秒每次。则全部检索出的数据为1*365*8*24*3600 = 252288000条。假设每条数据需要16个字节传输,则需要消耗近百兆字节,这对于无论服务器还是网络带宽来说都会带来极大的负载。即使服务器端采用数据缓冲技术,但是带宽的负载还是没有降低,同时如果在浏览器端将这2百万个数据点逐点绘出,不仅没有必要,而且给浏览器带来极大负载。
有部分技术提出为减少计算资源以及带宽资源负载,采用平均时间间隔采样和平均值计算的方式。平均时间间隔采样是在检索数据时抽取整点数据或者特定时间间隔数据,例如每半个小时取一次数据,这种方式绘制的生产数据曲线尽管可以观察到长时间信号的整体趋势,但异常数据往往会被忽略掉,无法查找生产过程的异常点。平均值计算则是对一定时间间隔的信号数据做平均值计算,例如每小时做平均值。采用这种方式绘制曲线,尽管可以查看信号数据整体趋势,从一定程度上检查异常点大致位置,但由于信号数据对原始信号数据进行了处理,无法准确定位异常点实际位置。
如何开发出一种可以快速的实现曲线报表数据采样的方法已经成为急需解决的技术问题。
发明内容
本发明的目的是为了解决现有技术中浏览器大数据查询导致服务器计算资源过载以及数据传输的带宽限制的缺陷,提供一种用于污水处理厂的曲线报表数据采样方法来解决上述问题。
为了实现上述目的,本发明的技术方案如下:
一种用于污水处理厂的曲线报表数据采样方法,包括以下步骤:
定义采样策略,定义自定义特征信号抽取函数以及取样点个数,浏览器根据浏览器窗口分辨率设定信号数据采样输出个数;
服务器解析采样策略,服务器解析浏览器发来的Json格式采样策略脚本,提取特征采样函数,对特征采样函数表达式做语法语义检查,若表达式无误,则将保存策略以及配置参数;
判断采集数据量,检索符合条件的数据,若检索出的数据个数小于实际需要信号点个数则直接输出数据,否则对检索出的数据按照采样策略进行采样;
以采样策略为基础进行数据采样;
绘制曲线报表,对数据输出集合SETsamp编码,以Json格式将数据返回给浏览器,浏览器根据输出数据集合SETsamp绘制曲线。
所述的定义采样策略包括以下步骤:
定义特征信号抽取函数,特征信号抽取函数以函数表达式表示,用户根据给出的函数集合定义特征函数;
计算出特征函数对应的特征点取样个数;
定义平均时间间隔采样点数;
浏览器根据窗口大小,自行定义输出点数;
浏览器生成Json格式采样策略并发送到服务器端,其中Json脚本定义采样策略格式定义如下:
strategy_id为采样策略号;avg为平均时间间隔采样点数;spec_cnt为全部特征信号采样点数;output为全部采样输出点数;
spec为特征采样策略集合,其中:spec_id为特征采样策略标识;spec_func为特征采样函数表达式;spec_samp为基于该特征函数表达式选取点数。
所述的以采样策略为基础进行数据采样包括以下步骤:
将符合条件的数据按时间跨度分成N个数据子集合,其计算公式如下:
N=(Oc*Sc/Tc) +1,其中N为数据分块个数、Oc为服务器得到数据输出个数、Tc为服务器检索数据得到符合检索条件信号数量、Sc为采样策略需要信号点数;
对数据子集合分别按平均时间间隔采样得到平均时间间隔采样数据组,先计算采样间隔Ts,公式如下:
Ts=Tgap/avg,其中Tgap为计算数据子集合中信号发生时间跨度,avg为平均时间间隔采样点数;
确定时间间隔Ts后,针对数据子集合信号按时间间隔Ts采样,得到数据子集合平均时间间隔采样采样数据组SETavg;
对数据子集合按照特征策略做数据特征采样得到特征采样数据,
首先,对数据子集合运用特征函数采样得到输出结果集合Tempsamp;
其次,若获得的集合中信号个数大于指定特征信号采样个数,则先按照特征函数的语义挑选信号,再按照权重对数据抽样;
最后,输出特征采样信号集合SETspec;
对每个数据集合按信号发生先后时间顺序合并SETavg、SETspec,得到该数据样本子集合SETsamp。
一种以采样策略为基础进行数据采样的系统,包括数据划分管理模块、作业调试模块、算法池和数据整合模块;
所述的数据划分管理模块用于将采样数据按照采样策略划分为多个数据子集合,并对各数据子集合管理;所述的作业调试模块用于对计算池进行管理,为计算池每个计算单元根据采样策略配置算法,并对计算单元调度、分配、以及释放等管理操作;所述的算法池用于设置一组并行独立的计算单元,各计算单元算法由作业调度模块按照采样策略配置;所述的数据整合模块用于收集计算池各计算单元输出结果,按任务分发输出结果;
所述的数据划分管理模块和作业调试模块分别与算法池相连,算法池与数据整合模块相连。
有益效果
本发明的一种用于污水处理厂的曲线报表数据采样方法,与现有技术相比能够使服务器端迅速的从海量信号数据中抽样出代表信号特征的关键信号。使污水处理厂能够观察一定时间跨度的信号趋势的同时并快速定位信号数据异常点,对信号整体趋势做出判断的同时检索信号异常点从而定位解决生产技术问题。基于浏览器绘制曲线实际需要出发,在服务器端对海量原始数据采样,既保留原始信号数据,又保留特定特征信号,降低了服务器计算负载以及数据传输带宽负载。经过本方法采样绘制的数据曲线,可以观测到长时间跨度的信号趋势,也可以通过不断细化检索时间,最终检索到异常信号点。