基于MLP和SARIMA的青岛市AQI预报模型

时间:2023-06-21 09:40:03 来源:网友投稿

马风滨

(山东科技大学,山东 青岛 266590)

随着中国经济的快速发展和城镇化步伐的加快,环境问题日益突出,空气质量问题成为人们关注的焦点。青岛是我国知名旅游城市,空气质量管理是青岛环境保护的重要一环[1]。基于此背景,本文探讨了青岛市空气质量指数(Air Quality Index,AQI)与各污染物的变化规律,并对青岛市AQI进行了预测。

AQI是描述城市环境空气质量综合状况的无量纲指数[2],根据《环境空气质量评价技术规范(试行)》,它综合考虑了SO2、NO2、PM10、PM2.5、CO、O3等污染物的危害程度,AQI值越小,表明空气污染程度越小[3]。建立一个可靠的模型来预测AQI的变化趋势,对防止环境污染和改善空气质量具有重要意义。焦东方和孙志华[4]基于多元回归分析模型,对青岛市空气质量进行了分析和预测。Gogikar等[5]基于多元线性回归估算方法建立了印度阿格拉市和鲁吉拉市的PM2.5预测模型,指出两市的工业发展方向。温情等[6]基于长短期记忆网络实现了对郑州市PM2.5的长期预测。

本文基于深度学习网络中的多层感知机(Multilayer Perceptron,MLP)建立青岛市AQI预报模型,通过均方根误差、标准化平均误差、Pearson相关系数等进行模型检验,建立准确可靠的AQI预报模型,为更好地实现青岛市空气质量管控提供参考。

1.1 数据来源

本文中的空气质量数据参考了中国空气质量在线监测分析平台(https://www.aqistudy.cn/historydata/)公布的2014—2021年青岛市空气质量月统计历史数据,包括6种主要污染物的浓度值及AQI值,其中PM2.5、PM10、SO2、NO2、O3的单位为ug/m3,CO的单位为mg/m3。青岛市2014年1月—2021年12月AQI变化趋势存在明显的季节性差异,见图1。

图1 2014—2021年青岛市AQI趋势图

1.2 数据处理

1.2.1 数据标准化

在利用深度学习算法训练神经网络的过程中,因为原始数据非常容易受到异常点的影响,如果数据集中的最大值和最小值差距较大,对输出结果将产生很大影响,此时数据整体鲁棒性比较差,只适合数据量比较小和比较精确的情况。鉴于此种情况,通常需要对原始数据集进行标准化处理,以防止某些数据对结果影响过大。通过标准化处理,可以得到服从标准正态分布的数据,其均值为0,标准差为1,这时数据集中所有数据变化范围相同。数据标准化的应用场景之一是当数据各个特征的取值范围差别较大时,或各特征单位具有较大差异时,需要使用标准化方法对数据进行预处理。

本文采用的标准化方法是Z-score方法,该方法根据原始数据的均值(Mean)和标准差(Standard Deviation)对数据进行标准化,计算公式为

式中:x为原始数据集中的数据;
μ为原始数据的均值;
σ为原始数据的标准差。

在本文的原始数据集中,AQI值和各污染物浓度值均有明显异常值,所以本文对输入数据和输出数据进行了标准化处理,以建立更准确的模型。

1.2.2 相关性分析

相关性分析主要是研究两个变量间线性相关程度的强弱,即密切程度[7]。本文采用皮尔逊(Pearson)相关系数来检验预测值与实际值之间的密切程度及拟合情况。皮尔逊相关系数也被称为皮尔逊积矩相关系数,通常用ρX,Y表示,它被广泛应用于度量随机变量X和Y之间的相关程度,计算公式为

式中:cov(X,Y)为变量X和变量Y之间的协方差;
σX为变量X的标准差;
σY为变量Y的标准差。

2.1 模型构建

2.1.1 MLP模型构建

MLP也叫人工神经网络,它除了输入层和输出层,中间还可以有很多隐藏层,最简单的MLP具有3层结构。本文采用的是6层结构,即具有1个输入层、4个隐藏层、1个输出层,见图2。

图2 六层感知机网络结构图

MLP具有6个输入神经元,代表6种主要污染物,1个输出神经元代表AQI,模型含有的隐藏层的神经元越多,代表模型的拟合能力越强。

2.1.2 激活函数引入

本文中所构建的MLP模型由于AQI值和各个污染物浓度值之间并没有简单的线性关系,因此必须引入激活函数到MLP模型中,并在神经元中增加非线性因素,让神经网络可以任意逼近非线性函数。在激活函数研究早期主要是以Sigmoid函数为主,近些年在多层神经网络中使用较多的是ReLU函数。因为在反向传播时Sigmoid函数比较容易产生梯度消失的情形,对本文所研究的数据拟合比较不利,所以本文选择了更有利于处理本数据集的ReLU函数作为激活函数。

ReLU函数的解析式为

ReLU函数是一个分段线性函数,它的非线性很弱,因此网络一般要做得很深[8],网络越深,模型的泛化能力越好,这正好迎合了本文的需求。

2.1.3 优化器选择

神经网络中的参数很多,对参数的学习和更新需要优化器来完成,优化器是神经网络架构的重要环节。本文选择随机梯度下降(Stochastic Gradient Descend,SGD)算法作为优化器。随机梯度下降算法是梯度下降算法的扩展,其核心是梯度期望[9],它每次选择一个mini-batch,而不是全部样本。使用梯度下降算法来更新模型参数,计算公式为

与自适应矩估计(Adaptive Moment Estimation,Adam)优化器相比,SGD优化器除了计算快外还有很多其他的优良性质。图3-a和图3-b分别展示了使用SGD优化器与使用Adam优化器在相同迭代次数(100次)情况下的损失函数的对数值变化曲线。相比之下,本文的优化器选择SGD更为合适。

图3 优化器损失函数变化曲线图

SGD可以自动避开鞍点和一些不符合要求的局部最优解,最终的计算结果具有普遍性,它可以在具有相同分布的数据集上表现出很好的性能。

2.1.4 时间序列模型构建

差分自回归移动平均(Autoregressive Integrated Moving Average,ARIMA)模型是一种时间序列分析、预测方法,于20世纪70年代初由统计学家Box和Jenkins提出,主要用于拟合平稳序列或可以被转换为平稳序列的时间序列,结合了自回归和移动平均的长处,具备不受数据类型束缚和适应性强的特征[10]。ARIMA模型在AQI预测中得到了广泛应用,但在影响AQI的6个主要污染物的预测中应用较少。

由于本文研究的污染物浓度存在季节性差异,采用ARIMA模型效果不理想。为更准确地对数据进行分析和预测,选择季节性差分自回归移动平均(Seasonal Autoregressive Integrated Moving Average,SARIMA)模型。SARIMA模型是ARIMA模型的拓展,对有季节性成分的变量具有很强的适应性,它的参数表示式为SARIMA(p,d,q)(P,D,Q)m,其中:模型的非季节部分用(p,d,q)表示;
模型的季节部分用(P,D,Q)表示;
m为时序的周期性,本文中以月为单位,即m=12。

2.1.5 SARIMA模型定阶

时间序列的平稳性要求从样本时间序列中得到的拟合曲线在未来可以沿着现有的形式延续下去,即时间序列的预测能在过去的数据中找到规律,因此要将非平稳的时间序列转换为平稳的时间序列[11]。通过单位根检验(ADF检验),只要统计量小于1%,5%和10%水平的临界值,且P值小于0.05,则可以拒绝原假设[12]。本研究中以PM10浓度为例的原始序列的P值为0.672,大于0.05,因此不能拒绝原假设,原序列不平稳。

由于原始数据是不稳定的,为了得到一个稳定的序列,需要对原始数据进行一阶差分[13]。以PM10为例,序列y1经过一阶差分后的自相关函数(Autocorrelation Function,ACF)图和偏自相关函数(Partial Autocorrelation Function,PACF)图分别见图4-a和图4-b。

图4 序列y1一阶差分后的ACF图和PACF图

从图中可以看出,一阶差分后的PACF图突刺明显,效果并不显著,说明y1中有季节成分。为了消除数据的季节性,对序列y1求一阶差分后得到序列y2,对y2进行单位根检验(ADF检验),检验结果见表1。可以看出P值远小于0.05,因此可以认为原假设不成立,说明序列y2已经是平稳序列[14]。

表1 序列y2的单位根检验结果

序列y2的ACF图和PACF图分别见图5-a和第65页图5-b,由图可以初步确定p=1,q=1。

图5 序列y2的ACF图和PACF图(续)

图5 序列y2的ACF图和PACF图

直观上通过ACF图和PACF图确定模型的最优参数仍然很困难。为了确定最优模型阶数,本文根据最小信息量准则(Akaike Information Criterion,AIC)选择AIC最小的模型作为候选模型[15]。通过对各候选模型进行筛选和比较,模型SARIMA:(1,1,1)x(0,1,1,12)的AIC值为421.63,在所有候选模型中为最小值,因此本研究选择该模型为最优模型。

2.2 模型评估

2.2.1 MLP模型评估

1)均方根误差。均方根误差(Root Mean Square Error,RMSE)表示测量值与实际值之间曲线的拟合水平。RMSE值越小,表示具有更高的测量精度,其表达式为

2)标准化平均误差。标准化平均误差(Normalized Mean Error,NME)表示测量值与真实值之间的平均绝对误差[7],其表达式为

3)标准化平均偏差。标准化平均偏差(Normalized Mean Bias,NMB)表示模型预报值与实际值的平均偏离水平[16],其表达式为

2.2.2 SARIMA模型评估

对拟合好的模型的准确性进行检验,主要是确保模型残差部分互不相关,并且呈零均值正态分布。实际观察值与拟合值之间的差在统计学中称为残差,利用残差信息对所建模型的准确性进行诊断的过程称为残差分析[17]。

为了快速得到模型诊断结果,并调查有无异常行为,可以通过调用模型诊断函数来完成。图6为PM2.5的预测模型诊断图。在残差图中,直方图和估计密度图展示了密度,基本符合均值为零的正态分布;
Q-Q图展示了残差遵循标准正态分布的线性趋势。可以确定该模型的选择是合适的。

图6 PM2.5模型诊断图

3.1 结果分析

为方便观察MLP模型的准确程度,图7展示了测试集的AQI预测值与实际值的散点图。从图中可以看出,预测值比实际值略大,所以通过计算各误差值进行更加准确的评估。

图7 AQI预测值与实际值散点图

MLP模型的误差检验结果见表2,模型预测值与实际值的Pearson相关系数为0.93,表示二者极度相关。结合评估结果分析,AQI预测模型能够满足实际预测要求。

表2 MLP模型AQI预测值评估分析

SARIMA模型很好地拟合了过去时间段的数据,并通过了模型评估检验。图8为PM2.5的时间序列预测曲线。

图8 PM2.5预测趋势图

3.2 AQI预测

训练集选择2014年1月—2020年5月的各污染物浓度数据,将2020年6月—2021年12月数据作为测试集。基于时间序列预测各污染物在2022年1月—2022年5月的浓度值,见表3。

表3 各污染物浓度预测值

基于SARIMA模型预测的数据,通过MLP预测模型,预报未来2个月的AQI值,见图9。实线表示2014年1月—2020年5月训练集数据,短划线表示2020年6月—2021年12月测试集数据,点线表示2022年1月—2022年5月预测数据。

图9 AQI预测曲线图

本文研究了基于MLP的AQI预报模型,通过调整隐藏层的神经元个数和隐藏层层数,降低模型的预测误差,不断尝试数据在不同激活函数和优化器下的拟合值,选择最适合本文数据的优化器和激活函数。通过模型评估检验,建立AQI与PM2.5、PM10、NO2、CO、SO2、O3的可靠的MLP预报模型,实现未来几个月的AQI预测。同时,由于各污染物浓度存在季节性差异,ARIMA模型不能很好地拟合本研究中的数据,因此本文选择SARIMA模型对6种主要污染物进行时间序列分析及预测。考虑到原始数据波动性较大,因此对原始数据进行Z-score标准化处理后再进行分析预测,效果优于基于原始序列的预测。

通过本文的研究结果可以看出,6种主要污染物对空气质量都有不同程度的影响,所以对青岛市空气质量管控提出以下3点建议。

1)发展公共交通和新能源汽车,减少人们对燃油车的依赖,减少汽车尾气对空气质量的影响。

2)加强对污染物超标排放企业的治理,对现有排放设施进行改造升级,大力发展绿色产业,限制高能耗产业的投产。

3)政府和相关部门强化环境监督管理,做好环境规划,注重节能减排,提高能源利用率。

(责任编辑 石志荣)

猜你喜欢原始数据青岛市空气质量GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATIONChina Report Asean(2022年8期)2022-09-02受特定变化趋势限制的传感器数据处理方法研究物联网技术(2020年12期)2021-01-272019青岛市科创板发展现状商周刊(2019年18期)2019-10-12关于青岛市地下城市空间开发的思考江西建材(2018年2期)2018-04-14全新Mentor DRS360 平台借助集中式原始数据融合及直接实时传感技术实现5 级自动驾驶汽车零部件(2017年4期)2017-07-12“空气质量发布”APP上线环境保护与循环经济(2017年3期)2017-03-03车内空气质量标准进展汽车与安全(2016年5期)2016-12-01重视车内空气质量工作 制造更环保、更清洁、更健康的汽车汽车与安全(2016年5期)2016-12-01青岛市市立醫院(集团)中国卫生(2016年8期)2016-11-12开展“大气污染执法年”行动 加快推动空气质量改善中国环境监察(2016年11期)2016-10-24

推荐访问:青岛市 预报 模型