基于统计学习方法的南京市空气质量影响因素及趋势的研究

 2022-05-15 10:05

论文总字数:35089字

% !TEX TS-program = xelatex

% !TEX encoding = UTF-8 Unicode

% !Mode:: "TeX:UTF-8"

\documentclass[bachelor,nocolorlinks, printoneside]{seuthesis} % 本科

% \documentclass[master]{seuthesis} % 硕士

% \documentclass[doctor]{seuthesis} % 博士

% \documentclass[engineering]{seuthesis} % 工程硕士

\usepackage{CJK,CJKnumb}

\usepackage{amsmath}

\usepackage{amsfonts}

\usepackage{bm}

\usepackage{algorithm}

\usepackage{algorithmicx}

\usepackage{algpseudocode}

\usepackage{subfigure}

\floatname{algorithm}{算法}

\renewcommand{\algorithmicrequire}{\textbf{输入:}}

\renewcommand{\algorithmicensure}{\textbf{输出:}}

\newtheorem{remark}{分析}

\newtheorem{defi}{定义}

% 这里是导言区

\begin{document}

\categorynumber{000} % 分类采用《中国图书资料分类法》

\UDC{000} %《国际十进分类法UDC》的类号

\secretlevel{公开} %学位论文密级分为"公开"、"内部"、"秘密"和"机密"四种

\studentid{09013000} %学号要完整,前面的零不能省略。

\title{基于深度学习的希腊字母研究}{}{Deep learning in greek alphabet}{subtitle}

\author{朴智新}{Zhixin Piao}

\advisor{无名氏}{教授}{No Name}{Prof.}

\coadvisor{副导师}{副教授}{Co-advisor's Name}{Associate Prof.} % 没有

% \degree{工学硕士} % 详细学位名称

\major[12em]{计算机科学与技术}

\defenddate{答辩日期}

\authorizedate{学位授予日期}

\department{计算机科学与工程}{department name}

\duration{2017年1月—2017年6月}

\address{河海院2楼}

\thanks{本论文获国家XXX计划项目(2012AA00A00)和国家杰出青年科学基金项目(01234567)资助。}

\maketitle

\begin{abstract}{空气质量指数预测,k 近邻算法,BP神经网络算法,无监测站区域}

城市的空气质量数据对于控制空气污染和保护公众健康具有重要意义。然而,在大多数城市中,空气质量监测站的数量较少。同时由于人口流动、建筑物类型等复杂因素,空气质量情况在空间上变化较大,因此一个特定监测站点仅能反映局部地区的空气质量情况。为解决城市中无检测站点地区的空气质量估计及预测问题,本文建立了一种新模型以估算和预测南京市无监测站区域的空气质量指数(AQI)。该模型由时间分类器和空间分类器构成,其中时间分类器完成在时间维度上根据监测站点的历史数据对该站点的未来空气质量指数进行预测的任务;空间分类器完成在空间维度上根据邻近监测站所提供的空气质量指数数据以及空间特征相似度对无监测站点区域的空气质量指数进行估计的任务。首先,基于k近邻算法(KNN)构建时间分类器来通过监测站点所记录的历史空气质量指数数据来预测该监测站短期内的空气质量指数。通过该分类器得到的一小时预测中,可接受的预测值数量占比接近95\%,在两小时预测中接近78\%,在四小时预测中接近61\%。其次,本文基于BackPropagation(BP)神经网络算法利用邻近监测站点所提供的空气质量指数信息以及待预测的目标站点与有监测站点之间的空间相关性构建空间分类器,以得到无监测站点区域在某一时刻的空气质量指数的估计值。本文通过引入交叉验证以提高空间分类器的准确性和适应性。最后,本文通过将时间分类器获得的某些监测站的AQI预测值输入到空间分类器中,从而得到非监测站点区域空气质量指数的预测值。

\end{abstract}

\begin{englishabstract}{Air quality prediction, k-Nearest Neighbor, BP neural network, Non-monitoring stations}

Air quality data in urban area is of great significance to control air pollution and protect the public health. However, air-quality-monitor stations are insufficient in most cities and the air quality varies from one place to others dramatically due to complex factors.

A novel model is established in the current paper to estimate and predict the Air Quality Index (AQI) of the areas without monitoring stations through the city Nanjing.

The model combines the time classifier and the spatial classifier to predict AQI in temporal dimension and estimate AQI in non-monitoring areas in spatial dimension respectively.

First, the time classifier is presented based on the k-Nearest Neighbor (KNN) algorithm to predict the AQI values among monitoring stations, the acceptability of the results approaches 95\% for one-hour prediction, 78\% for two-hour prediction and 61\% for four-hour prediction respectively.

Second, the spatial classifier is utilized with the help of Back Propagation neural network (BP), which takes AQI values of monitoring stations around a certain site and relative distance from the station as input, to estimate the AQI values among areas without monitoring stations. To improve the accuracy and adaptability of the spatial classifier, the cross-validation is introduced.

Then, the AQI values in non-monitoring sites can be predicted through inputting AQI predictions of certain monitoring stations obtained by the time classifier into the spacial classifier.

\end{englishabstract}

\tableofcontents

% \begin{terminology}

% \begin{table}[h]

% \renewcommand\arraystretch{1.5}

% %\Large

% \begin{tabular}{gt;{\LARGE}m{0.2\textwidth} lt;{\centering}m{0.7\textwidth}}

% a amp; 如同汉字起源于象形,拉丁字母表中的每个字母一开始都是描摹某种动物或物体形状的图画\\

% bamp;和A一样,字母B也可以追溯到古代腓尼基。在腓尼基字母表中B叫beth,代表房屋,在希伯来语中B也叫beth,也含房屋之意。\\

% camp; 字母C在腓尼基人的文字中叫gimel,代表骆驼。它在字母表中的排列顺序和希腊字母Γ(gamma)相同,实际上其字形是从后者演变而来的。C在罗马数字中表示100。\\

% damp;D在古时是描摹拱门或门的形状而成的象形符号,在古代腓尼基语和希伯来语中叫做daleth,是“门”的意思,相当于希腊字母Δ (delta)。\\

% \end{tabular}

% %\caption{my table}

% \end{table}

% \end{terminology}

\begin{Main} % 开始正文

\chapter{介绍}

随着当代经济和技术的发展,空气质量问题逐渐进入人们视野。在关注天气预报的同时,人们也更加关心空气质量状况,它是关系到人类未来发展生存的首要问题。然而,工厂和汽车数量的迅速增加导致空气中颗粒含量的急剧增加,环境污染问题变得越来越严重。其中,雾霾是最典型的例子。雾霾可直接进入并粘附于人体下呼吸道和叶片,严重危害人体健康,重污染天气的预警和预测工作尤为重要\cite{15}。在城市中,导致雾霾形成的污染源主要来自各类化工厂,汽车尾气和取暖煤\cite{4}。但这些污染源的释放不能由个人有效控制。我们需要做的是对雾霾天气进行有效预测和估计,从而做好防御措施并且为政府实施针对性的相关政策提供参考依据。近年来,雾霾监测技术和监测设备在全国逐步完善并大量投入应用\cite{0}。

空气污染预测研究始于1973年第一次全国环境保护大会之后。1980 年以前,研究工作主要集中于影响污染物稀释和分解的天气和气象条件。20 世纪80 年代以来,北京,兰州,沈阳等城市基于空气中二氧化硫的含量进行了一系列关于城市空气污染的研究和预测。20 世纪90年代,中国在城市空气污染预测方面的工作取得了较为显著的成绩\cite{44}。

雾霾的形成与主要可吸入颗粒物浓度具有非线性关系,受到许多因素的影响,准确描述影响雾霾形成的因素之间的关系是很困难的。它具有明显的模糊性、随机性和信息的不完整性,这使得对雾霾天气的预测具有一定的挑战性。过去,一些科学家进行了研究以评估城市中颗粒物的含量变化情况。迪肯等人\cite{1}分析了英国监测点2 年内的数据,以描述当时的PM10 水平,并且估算了道路交通拥挤程度对PM10总量的贡献。同时,利用爱丁堡的气象资料,研究了气象因素对PM10水平的影响。然后,Harrison和Deacon(1998)\cite{2} 进行了相关分析得出“任何选定地点的测量结果都可以对模型进行可靠的描述,模型需要在一个地点考虑更多的超标时间,选址不同的站点可以给出可接受的预测”的结论。格拉瓦斯等人(2004)\cite{3}通过四个监测站的空气质量数据了解了雅典PM10 含量的时空变化:冷季PM10浓度略高,与周末相比,工作日污染水平明显偏高并发现了PM10浓度具有相当大的空间变异性。Kukkonen 等人(2005)\cite{4}选择了四个欧洲城市中所发生的与PM10 相关的事件,利用PM10数据集和当地气象数据进行统计研究,结果表明,该事件主要与高压区和反转事件有关。最后,Quall等人(2004)\cite{5} 研究了7个欧洲地区的可吸入颗粒物来源,利用PM10、PM2.5的测量结果以及区域背景和当地交通的测量数据,找出了希腊雅典和英国伯明翰影响PM10水平的主要因素,并给出了PM10 和PM2.5的年平均水平变化。Statheropoulos 等人在1998\cite{6} 对近五年的气象数据进行了主成分分析(PCA),以找到PM10的基础成分并将赋予其物理意义,较好的解释了数据与物理意义之间的关系。此外,Viana等人在2003年\cite{7}将混合单颗粒拉格朗日综合轨迹(HYSPLIT)模型用于计算雅典和伯明翰空中地球的3D 轨迹。本研究介绍了相关因素影响PM 水平的过程,并将利用模型分析了1996年至2001年12 个监测点的数据。过去,关于雾霾预测的研究方法主要包括灰色系统理论,模糊理论,人工神经网络(ANN)和PCA。在这些方法中,ANN具有无可比拟的优势:非线性函数逼近能力,适应变化的自学习等。

迄今为止,许多研究从不同气象学原理和统计学等不同角度出发,构建了雾霾预测模型和PM2.5预测模型。周等人\cite{8}提出了一种基于多变量诊断的雾霾预测方法,并讨论了变量选择和阈值对雾霾预测的影响。苗等人\cite{9}发现了客观模糊逻辑雾霾预测模型,建立在不准确性以及预测器和雾霾发生的不确定性之间的关系,然后在基于高分辨率的数值天气预测模型中输出参数。王等人的报告\cite{10} 表明,当前模型的预测性能仍然需要显著改进。Cobourn模型\cite{11} 的优势在于,预测结果可随实时测量的气象数据的更新而更新,从而获得具有更高时效性和准确度的预测结果。

此外,一些研究提出了一系列PM2.5预测模型。王等人\cite{12} 基于加州空气资源委员会的数据构建了自回归移动平均模型(ARIMA)模型,以预测季节性PM2.5浓度变化。Cobourn等人\cite{13}使用非线性回归反轨迹浓度模型,通过整合回风轨迹和区域空气质量信息来计算24小时后向轨迹浓度。Yu 等人\cite{14} 综合了贝叶斯最大熵方法(BEM)的三个部分来预测PM2.5的季度分布。结果表明,综合考虑PM10 浓度和总悬浮颗粒物(TSP)可以有效地提高预测能力。Sun等人\cite{15}提出了一种具有不同发射分布的隐马尔可夫模型(HMM),开发了具有对数正态,Gamma和广义极值分布的隐马尔科夫模型,结果表明在隐马尔可夫模型中使用的分布越接近观察序列,模型预测性能越好。江等人\cite{16}通过时间序列方法研究环境空气污染对早产的影响,并使用广义加性模型(GAM)制作样本曲线。结果表明上海的早产受环境空气污染的影响很大。Farah等人\cite{17}利用时间序列的自相关函数对SO2 以外的因子进行了相关分析,并对不同水平的数据序列的波动进行了残差分析结果表明时间序列方法也适用于贝鲁特的城市空气质量的预测估计。康等人\cite{18}利用美国的实时偏差调整方法得到了PM2.5和空气质量指数的预测模型。他们得出的结论是,实时偏差调整比传统的卡尔曼滤波器(KF)调节更为显着,这大大降低了误报率。韩等人\cite{19} 构建了简化的二维加热能力模型,该模型依赖于EnergyPlus模拟结果并拓宽了AQI加热(AH)模型的应用。之后,偏差调整技术被用于减少表面O3预测中的系统偏差。(DelleMonache等,2006\cite{20},McKeen等,2005\cite{21},DelleMonache等,2008\cite{22},Wilczak等,2006\cite{23}和Kang 等,2008\cite{24})。卡尔曼滤波器(KF)预测器已经在最大程度上改进了预测技能准确度,并且产生了平均水平最佳的臭氧总体预测。然而,尽管科学家已经建立模型来估计空气质量与其他气象因素之间的关系,但这些模型基于可能不适用于所有城市环境的实验假设和参数,这使得模型的适应性收到极大的限制。

短期预测和空间估计空气质量演变的能力对于控制空气污染和保护人们免受污染物危害是必不可少的。本文分别考虑时间和空间维度对空气质量指数的影响因素,建立两个不同的分类器,以解决时间维度和空间维度上的空气质量指数预测问题。其一是基于KNN算法的时间分类器,利用时间相关特性来估计空气质量指数随时间的变化。另一种是基于BP算法的空间分类器,它使用空间相关特征(例如相对位置、地理距离和站点影响区域的建筑类型)来描述不同位置的空气质量的空间相关性,并且验证不同拓扑结构对训练结果的影响。特别是,通过使用引入相关系数的改进KNN 算法来提高时间分类器的预测准确性,并将现有监测站的数据和空间特征(例如相对位置和地理距离)作为空间分类器的输入以推断无检测站点的空气质量,此模型可以应用于检测站分布具有类似拓扑结构的其他城市。

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

\newpage

\chapter{方法介绍}

首先,选择相对百分比误差(RPE)作为参数来评估本文建立的模型的准确性和有效性,其定义如下:

\begin{align}

\text{RPE}=\frac{|y_{T}-{\hat{y}_{T}}|}{y_{T}}\times 100\%

\end{align}

其中$y_ {T}$和$\hat{y}_{T}$分别表示空气质量指数实际值和空气质量指数的估计值。

当RPE在20\%以内时,可以认为预测值为可接受的结果。然后,相对准确率(可接受性)$r$定义如下:

\begin{align}

\setlength{\abovecaptionskip}{10pt}

r=\frac{N_{RPE}}{N}

\end{align}

其中${N_{RPE}}$表示可接受的预测值的数量,${N}$表示得到预测值的总数量。

剩余内容已隐藏,请支付后下载全文,论文总字数:35089字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;