基于分位数回归的南京空气质量分析

 2022-01-17 11:01

论文总字数:15799字

目 录

摘要 2

Abstract 3

引言 4

1. 影响AQI因素预处理、统计分析 5

1.1数据来源说明 5

1.2 数据预处理 5

1.3 AQI的因素分析 8

2. 基于线性分位数回归模型的AQI分析 9

2.1 分位数回归模型原理 9

2.2 AQI的线性分位数回归建模 10

2.3 分位数回归的假设检验 12

3. 基于时间序列分位数回归模型的AQI分析 14

3.1 时间序列的正态和平稳性检验 14

3.2 模型识别 16

3.3 QAR模型建立 18

3.4 QAR模型的点预测与区间预测 18

结论 21

讨论 错误!未定义书签。

参考文献 22

基于分位数回归的南京空气质量分析

杨晓

, China

Abstract: In recent years, the air quality of Nanjing is landslide. What’s worse, threr was "pink haze" of Nanjing in 2016. The air quality is generally not optimistic in the country. The primary tasks of improving air quality are to monitor, track and forecast the air quality, through which we can identify the sources of pollution and remedy them. First, we select six pollutants () and three environmental variables (humidity, wind level and temperature) as independent variables. The independent variables are the influence factors of air quality index -- Air Quality Index (AQI). Then we establish the linear quantile regression model (LQRM) to quantify the influence degree of each variable on AQI. And we can screen out the "culprit", which mainly affects the air quality of Nanjing. Finally, the quantile autoregressive model (QAR) is used to do point prediction and interval prediction of AQI. After analyzing, we can see that the most important influence factor of Nanjing’s air quality is PM10. At the same time the interval prediction reflects the change of AQI reasonably and provides a more effective reference tool for AQI's real-time feedback, which can help us to realize the purpose of providing environmental protection advice for the relevant departments.

Key words: Air quality index, Linear quantile regression, Quantile autoregressive, Time series, Prediction;

引言

近几年,全国各地的环境状况十分严峻,各种关于环境污染的报道层出不穷。公众对于环境状况的要求也日益提高,环境污染既会给人们的健康带来不可估量的危害,又会对我国经济的快速发展带来负面影响。为了经济的发展和人民的生活环境的改善,国家相关部门将人力物力大量投放到环境保护工作中去。显然,改善空气质量的状况是我国环保工作的当务之急。而改善空气质量,首先要做的就是要了解空气质量的污染源主要有哪些,对其进行监控、分析、预报。根据国家环境保护部的有关规定,针对AQI所制定的参与评价的污染物分别为六项[1]

针对空气质量的研究,国内外学者主要研究有:武艳娟、王建国通过对AQI进行灰色关联分析对呼和浩特空气质量进行评估;张延利、杨丽利用动态马尔科夫模型对AQI进行预测;Anikender Kumar通过主成分和神经网络模型对AQI实现预测;Nur Hai-zum Abd Rahman分别通过人工神经网络和模糊时间序列的方法对污染物和AQI进行研究;Chernoz-hukov 和 Umantsev 用分位数回归分析的方法深入研究CVaR的模型与估计方 [2-6];常用的统计方法有回归分析法、时间序列分析法、因子分析法等。国内外学者的研究主要集中于点预测,而在区间预测和关于整个分布的预测方面做的研究寥寥无几。本文则选用QR的两种模型对AQI分析,并进行预测。

分位数回归模型[7](Quantile Regression Model, QRM)是Koenker于1978年提出的一种用于估计响应变量条件中位数及其它分位数的方法[7]。传统的均值回归要求误差项服从高斯假设,而在生产实际中,满足此假设难度较大,因此,传统的回归模型得到的结论容易背离实际情况。但是QRM对于均值回归的应用要求并不高,同时它不但能够对回归变量在分布中心的影响进行评估,而且还能对回归变量在分布的两端的影响进行评估,甚至可以对整个条件分布的特征进行评估。更为重要的一点,当误差分布不是正态分布时,QRM比最小二乘估计的效果更好,所以本文选择使用QRM。现常用的OR模型有:线性模型、删失模型、加权模型、时间序列等。而本文所选用的是线性分位数模型和时间序列分位数自回归模型,一方面与所搜集的数据为时段数据有关,另一方面,时间序列理论发展比较成熟,两者结合,应用前景广阔。

首先,本文对南京2016年九、十两个月的空气质量数据进行分析,选取了九个指标作为自变量:,温度,风级,湿度,同时以AQI作为因变量做相关性分析,建立线性的QRM,研究各自变量对AQI分布的影响及相关性。随后,构造以AQI为时间序列变量的阶分位数自回归模型() 做点预测、区间预测。本文选取的分位数为:点预测,并比较在各个分位点所建立的模型的优良状况,同时做置信度为97%的区间预测

  1. 影响AQI的因素预处理、统计分析

1.1数据来源说明

本文研究的数据取自中国空气质量在线监测分析平台[8],共选取了南京地区2016年九、十两个月份的数据,该平台每隔一小时记录一次九个自变量(,温度,风级,湿度)的数值,本文所用的数据量为1442。因为九、十两月正是南京进入秋季之刻,也是南京空气质量比较严峻的时期,所以选取此时作为研究对象,更具有现实意义。

    1. 数据预处理

由于检测系统的不稳定、人为因素以及外部环境的变化等,网站数据有极少数的个别数据点出现空值现象,影响了我们的研究。由于缺失的数据很少,同时为了减少运算的复杂程度,本文选择的是最常用的线性插值法进行填补缺失值并画图 [9]:已知函数 上的值为,构造一个插值函数,使其满足:,其中,从而使得函数可以近似地代替的数据。

本文选取的数据为南京市2016年9月、10月两个月份的空气质量数据,每隔一个小时记录一次AQI,,温度,风级,湿度的数据。

剩余内容已隐藏,请支付后下载全文,论文总字数:15799字

相关图片展示:

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;