基于社交网络的交通状态提取

 2022-08-22 09:08

论文总字数:29975字

摘 要

交通状态信息对交通的出行者和决策者都有着很大的价值。出行者能通过交通状态信息及时的对出行路线进行调整,避开交通状态差的路段,使得出行变得更为高效;交通决策者能通过交通状态信息提出对路线的诱导,并为长期交通规划提供重要的依据。

社交网络上存在着丰富的信息,部分交通出行者会在社交网络上发布对其当前的交通信息的评论,比如新浪微博,BBS等。这些信息中包含着具有提取交通状态意义的信息。包含交通状态的文本信息可以被社交网络上交通信息的提取获得。然而社交网络中的信息是海量且分散的,单纯依赖人力是一种费时低效的工作。因此,为了获得包含交通信息的文本,网络爬虫技术在社交网络的信息提取中起到了十分重要的作用。

交通信息文本大致会被分为若干个主题。这些信息文本会被运用自然语言处理的方法,通过中文分词和关键词提取,对社交网络信息进行了假设若干个主题的关键词提取。

关键词:LDA模型;关键词提取;网络信息获取;HMM模型

Traffic State Extraction Based on Social Network

21013220 Jiang Chun-yuan

Supervised by He Tie-jun

Abstract

Traffic status information on the traffic traveler and decision makers have a great value of the traveler can be timely through the traffic status information on the travel route to adjust to avoid poor traffic conditions of the road, making travel more efficient; traffic decision Can be made through the traffic status information on the route of the road, and for long-term transport planning to provide an important basis.

There is a wealth of information on social networks, and some traffic travelers will post comments on their current traffic information on social networks, such as Sina Weibo, BBS, and so on. This information contains information that has the meaning of extracting traffic status. The text information of the traffic status can be obtained by the extraction of traffic information on the social network. However, the information in the social network is massive and fragmented, and relying solely on manpower is a time-consuming and inefficient work. Therefore, in order to obtain the text containing the traffic information, the network crawler technology in the social network information extraction has played a very important role.

Traffic information text will be roughly divided into several topics. This information text will be used in natural language processing methods, through the Chinese word segmentation and keyword extraction, the social network information was assumed a number of topics of keyword extraction.

Key words: LDA model; Keyword extraction; Internet information extraction; HMM model

目 录

摘要 I

Abstract II

第一章 绪论 1

1.1 研究背景 1

1.2 国内外研究现状 1

1.2.1 网络信息采集 1

1.2.2 基于自然语言信息处理的交通信息提取 2

1.3 研究内容和章节结构 4

1.3.1 研究内容 4

1.3.2 章节结构 4

第二章 网络信息提取 5

2.1 网页爬虫相关技术 5

2.1.1 HTTP协议 5

2.1.2 HTML文档格式 6

2.2 网页爬虫原理 7

2.2.1 网页爬虫工作流程 7

2.2.2 基于Python的网络包 7

2.2.3 基于Python的HTTP文档解析包 8

2.2.4 Python中的生成器机制 8

2.3 网页爬虫框架选择 8

2.4 Scrapy框架介绍 8

2.4.1 Spider内需实现部分介绍 9

2.5 Scrapy中的网页信息提取 9

2.5.1 CSS选择器 9

2.5.2 XPath选择器 10

2.5.3 CSS选择器与XPath选择器的对比 10

2.6 本章小结 10

第三章 自然语言处理介绍 11

3.1 中文分词 11

3.1.1 基于字符串匹配的中文分词方法 11

3.1.2 基于统计以及机器学习的分词方法 11

3.1.3 基于HMM的分词方法 11

3.1.4 基于MEMM的分词方法 13

3.1.5 基于CRF的分词方法 13

3.1.6 分词方法之间的对比 13

3.2 关键词提取 14

3.2.1 基于TF-IDF的关键词提取 14

3.2.2 基于Topic Model的关键词提取 15

3.2.3 基于TextRank的关键词提取 15

3.2.4 关键词提取算法之间的对比 16

3.3 本章小结 16

第四章 网页爬虫实现 17

4.1 网页页面分析 17

4.1.1 微博原创博文信息单元信息提取 17

4.1.2 微博转发博文信息单元信息提取 17

4.1.3 微博中AJAX的处理 18

4.2 爬虫程序的实现 18

4.2.1 Sipder的实现 18

4.3 本章小结 22

第五章 实验 23

5.1 实验语料 23

5.2 语料中文分词 23

5.2.1 使用默认词库进行分词 23

5.2.2 添加词库进行分词 24

5.3 语料关键词提取 25

5.3.1 主题为5时的主题分布 25

5.3.2 主题为10时的主题分布 25

5.3.3 主题为15时的主题分布 26

5.3.4 将路名加入停止词语时的主题分布 26

5.4 本章小结 26

第六章 结论与展望 28

6.1 本文研究结论 28

6.2 未来工作展望 28

致 谢 29

参考文献 30

绪论

研究背景

随着社会经济的快速发展,城市道路承受的交通压力也在不断增大,城市交通所面临的状况也变得越发严峻,城市交通拥堵问题已成为制约城市发展的一个重要瓶颈因素。同时,由于互联网的进一步普及,社交网络的用户也日益增多,社交网络上的信息也日益丰富。为了减缓部分交通拥堵的问题,解决部分市民出行的需求,促进城市建设的进一步发展,从社交网络中提取交通状态来进行对出行的引导或成为建立方便、快捷、安全的出行环境,提升城市居民生活幸福指数的关键。

国内外研究现状

交通调查是用客观的手段测定道路交通流以及对与其有关的现象,获得调查数据并进行分析,掌握交通流运行的特点、变化规律及存在问题,为交通运行设施设置管理及管理措施的制定提供科学的决策依据。传统交通的调查主要使用浮动车[1]、固定检测器[2]等对道路交通流进行调查。

近年来,国内外学者对新型交通信息调查展开了大量的研究。王祺等[3]提出了一种基于车间通信的交通信息采集方法,将具有车间通信功能的车辆视为路网中的移动传感器节点,路旁基站通过对节点采集到的交通数据进行分析,得到路段实时交通状态;赵祥模等[4]提出的泛在交通信息服务系统的构架的感知层中,以移动对象、静态对象为感知对象,传感器、车载OBD、射频识别等为感知手段来感知交通流量信息、基础设施状态信息等信息,进一步拓展了调查交通信息的手段;仇培元等[5]提出一种从互联网文本中抽取道路交通信息的模式匹配方法,从互联网页面和社交网络的文本中提取道路交通信息,为其他交通信息采集平台的有效补充;张恒才等[6],提出一种从微博消息中快速提取和融合交通信息的技术方法,通过对采集到的微博消息进行分词解析和路网匹配,并采用基于神经网络的模糊 C 聚类方法定量化进行分析,获取各路段置信度最高的交通状态描述,最后得到各路段的交通畅通度水平。虽然社交网络信息具有模糊性、差异性和非结构化性,但是其中蕴含的丰富信息,可以为其他交通信息采集平台作为有效的补充。

网络信息采集

从互联网上获取信息用到的主要是网络爬虫,即一种自动获取网页内容的程序。网络爬虫一般分为传统爬虫和聚焦爬虫。

剩余内容已隐藏,请支付后下载全文,论文总字数:29975字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;