基于自然语言处理的国内光纤行业动态分析

 2022-04-02 10:04

论文总字数:34694字

摘 要

行业动态分析是指分析该行业目前的市场状况,包括原材料供求、产品研发、市场变化、投资详情等整个行业上下游的情况。行业动态分析为公司短期决策提供了重要依据,是提升公司竞争力的重要手段。

传统的行业动态分析方法主要是投入人力从网络上搜集行业情报并人工分析,当情报数据非常大时,单纯依靠人工的做法非常低效。为此,本文以国内光纤行业为研究切入点,构建了一个针对该行业动态的分析系统,该系统使用爬虫技术从网络上爬取行业动态信息,基于自然语言处理技术实现对情报的文本分析,最后生成分析报告,整个过程均借助计算机自动化处理,有望提高公司相关业务的效率。论文的主要工作如下:

1. 实现了针对光纤站点的爬虫:针对热门光纤网站分别编写网页解析脚本,提供接口给用户设置过滤条件,依据过滤条件有目标地爬取所需的光纤行业情报;

2. 构建了词法分析器:比较了基于字符串匹配、理解、统计和深度学习的词法分析方案,并最终选取BI-LSTM-CRF神经网络模型构建词法分析器,支持对文本分词、词性标注和命名实体识别;

3. 设计了人机交互的词库:建立词库收录光纤行业词汇,实现了词库匹配算法弥补词法分析器对未登录词识别准确率低的不足,并设计前端交互界面以供用户对词库进行检索和维护更新操作;

4. 构建了文本挖掘器:根据词法分析结果,使用Fasttext分类器对收集的情报分类,使用TextRank算法对文本摘要,并挖掘产品研发、市场投资、企业的媒体关注度等信息。

测试结果表明,程序完成了预设目标,实现了自动化分析国内光纤行业动态。

关键词:光纤行业,自然语言处理,文本分析,爬虫,词库

Abstract

Industry dynamic analysis aims to analyze current market state of an industry which includes raw material supply and demand, product development, market changes, and investment details from downstream to upstream. It is the basis for companies make short-term decisions, and helps to enhance their competitiveness as well.

The traditional industry dynamic analysis method mainly based on human resources to collect and analyze the industry information from the Internet. When the information gets huge, it’s very inefficient to rely solely on labor. In this paper, we take the domestic optical fiber industry as the research entry point and develop an analysis system for it. The system uses crawler technology to crawl industry dynamic information from the Internet, then analyze the information based on natural language processing technology, and generates a report finally, all steps are automatically driven by computer, which is expected to improve the efficiency of companies’ related business. The main work of the paper is as follows:

1. Achieved a crawler for the fiber optic site: code webpage parsing scripts for popular fiber optic websites, provide interfaces to users to set filtering conditions, and crawl the required fiber industry information according to the filtering conditions.;

2. Constructed a lexical analyzer: compare several lexical analysis schemes based on string matching, understanding, statistics and deep learning, finally construct lexical analyzer with BI-LSTM-CRF model, support for text segmentation, part-of-speech tagging and named entity recognition;

3. Designed a lexicon of human-computer interaction: build a lexicon to collect the industry vocabulary, implement a lexicon matching algorithm to compensate for the low accuracy of the lexical analyzer for the recognition of oov, and design interactive UI for user to retrieve, maintain and update the lexicon;

4. Constructed a text miner: classify and summarize the collected information according to the results of lexical analysis, and explore information such as product development, market investment, and media attention for companies.

The test results show that the program has completed the preset goals and achieved automated analysis of domestic fiber industry dynamics.

KEY WORDS: fiber industry, NLP, text analyze, crawler, lexicon

目 录

摘 要 I

Abstract II

第一章 绪论 1

1.1 研究背景及意义 1

1.2 研究现状 2

1.2.1 中文分词方法 2

1.2.2 关键词提取算法 3

1.3 研究目标及内容 4

1.4 本文的组织结构 5

第二章 需求分析与技术概述 6

2.1 需求分析 6

2.1.1 爬虫需求 6

2.1.2 词法分析需求 7

2.1.3 文本挖掘需求 7

2.1.4 网页交互需求 8

2.2 技术概述 8

2.2.1 爬虫工具箱Beautiful Soup 9

2.2.2 词法分析模型BI-LSTM-CRF 9

2.2.3 摘要算法TextRank 13

2.2.4 文本分类器Fasttext 14

2.2.5 Web框架Flask 14

2.3 本章小结 14

第三章 国内光纤行业动态分析系统的概要设计 15

3.1 系统总体设计 15

3.2 模块设计 16

3.2.1 爬虫模块 16

3.2.2 词法分析器 16

3.2.3 文本挖掘器 17

3.2.4 前端模块 18

3.3 数据库设计 18

3.4 本章小结 20

第四章 国内光纤行业动态分析系统的详细设计与实现 21

4.1 项目实现概述 21

4.2 爬虫模块的实现 21

4.3 词法分析器的实现 22

4.3.1 语料库预处理 23

4.3.2 模型搭建 25

4.3.3 模型训练 25

4.3.4 词库修正 26

4.4 文本挖掘器的实现 27

4.4.1 关键词提取的实现 28

4.4.2 文本摘要的实现 28

4.4.3 文本分类的实现 29

4.5 前端模块的实现 30

4.6 本章小结 33

第五章 系统测试 34

5.1 功能测试 34

5.1.1 测试用例设计 34

5.1.2 测试结果 34

5.2 性能测试 39

5.2.1 爬虫性能测试 39

5.2.2 词法分析器性能测试 39

5.2.3 文本挖掘器性能测试 39

5.3 本章小结 40

第六章 总结与展望 41

6.1 总结 41

6.2 展望 41

参考文献 43

致 谢 45

第一章 绪论

1.1 研究背景及意义

行业动态分析是指分析该行业目前整个上下游的市场状况。许多公司都有通过网络搜集情报了解所在行业动态的业务需求,从领导层面看,经过有目标的挖掘获取的行业情报可以从宏观上了解整个行业市场投资的情况,并以此为参考为本公司制定适宜的发展战略;从业务部门层面看,经分析后的情报可以了解行业产品研发情况,并掌握竞争对手公司的经营状况;从员工层面看,可以帮助获取工作有关数据提高学习和业务效率。因此,对本行业的动态进行高质量的分析,为公司未来的短期决策提供了重要依据,对整个公司的发展起着非常重要的作用。

目前信息如爆炸般飞速增长,面对搜集而来的数量巨大的行业情报信息,单纯依靠人力去进行相关行业的动态分析,未免有些捉襟见肘,员工长时间工作甚至会增加犯错的概率。而且,情报文本质量不一,对分析员工的素质也提出了较高要求。再加上人工处理非常耗时,很难及时出具行业动态分析报告,从而影响公司的短期决策。因此市场上迫切需要一款能高效自动化地对本行业情报文本进行分析的系统。

剩余内容已隐藏,请支付后下载全文,论文总字数:34694字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;