面向金融领域的汉语短文本分类方法研究

 2022-05-22 08:05

论文总字数:29455字

摘 要

近年来,信息技术飞速发展,传统金融机构联合新兴的互联网企业开发了新的金融业务模式,互联网金融成为金融科技领域的重要形态之一。运用文本分类的技术,可以有效提取市场信息,实现人工智能监管与传统监管手段的有机结合,提升大数据信息收集与风险控制的能力,降低运营风险与成本,为金融行业的健康发展提供新的路径。

2006年,深度学习的概念面世,广泛应用于语音识别、自然语言处理、图像处理、天气预测等领域,取得了很多成功。其中的运用最为广泛神的经网络之一是递归神经网络和卷积神经网络,将自然语言处理问题抽象成sequence-to-sequence问题,并采用合适的递归神经网络结构进行处理,已经成为当前研究的热点和主流。

本文针对金融领域的汉语短文本数据集,进行文本分类。本文主要有三个模型,第一个是循环神经网络模型,重点对比了池化层和隐藏状态参数对文本分类的影响;第二个是卷积神经网络模型,重点研究了卷积核大小和卷积核数量对文本分类的影响;最后是循环卷积混合神经网络模型,结合前两个模型的最优模型,提升了文本分类的准确率和召回率。

关键词:深度学习,文本分类,金融,LSTM,CNN

Abstract

 

Recently, with the rapid development of information technology, traditional financial institutions have developed a new financial business model in conjunction with emerging Internet enterprises. Document categorization technology can effectively extract Market information, realize the organic combination of artificial intelligence supervision and traditional supervision means, enhance the ability of large data information collection and risk control, reduce operational risks and costs, and provide a new path for the healthy development of the financial industry.  

In 2006, the concept of deep learning was proposed, subsequently applied to the field of computer vison, Natural Language Processing, speech recognition, and successfully made many breakthroughs, the recurrent neural network in deep learning is widely used to solve the problem of part of speech tagging, translation, named entity recognition and so on. Abstract most Natural Language processing problem as a sequence generation sequence and use the appropriate structure of recurrent neural network processing it become the current hot and mainstream.

This a classifies Chinese short document data sets in the financial field. There are three main models in this paper. The first is the cyclic neural network model, which focuses on comparing the effect of pooling layer and hidden state parameters on Chinese document classification. The second is convolution neural network model, depending on the convolution kernel size and convolution kernel number on Chinese short document classification. Finally, the circular convolution hybrid neural network model, combined with the optimal model of the first two models, improves the accuracy and recall rate of document classification.

KEY WORDS: deep learning,document classification,LSTM,CNN,

目 录

摘 要 I

Abstract 2

第一章 绪论 5

1.1研究背景 5

1.1.1金融领域汉语短文本分类必要性 5

1.1.2 课题研究意义 5

1.2国内外研究概况 7

1.2.1机器学习与汉语短文本分类 7

1.2.2深度学习与汉语短文本分类 8

1.3论文的组织结构 10

第二章 深度学习理论基础 11

2.1从机器学习到深度学习 11

2.2神经元和神经网络 12

2.3 循环神经网络 13

2.4 卷积神经网络 15

2.5本章小结 18

第三章 面向金融领域的汉语短文本分类模型 19

3.1 基于循环层的汉语短文本分类模型 19

3.2 基于卷积层的汉语短文本分类模型 21

3.3 基于循环卷积层的汉语短文本分类模型 23

3.3.1 嵌入层 23

3.3.2 卷积层 23

3.3.3 循环层 23

3.3.4 分类层 24

3.4本章小结 24

第四章 实验与结果分析 25

4.1 数据集处理 25

4.1.1 数据集介绍及划分 25

4.1.3 中文分词 27

4.2 实验环境 28

4.3模型性能评判标准 29

4.4 实验参数对比与结果与分析 30

4.4.1 LSTM模型 31

4.4.2 CNN模型 33

4.4.3 CNN-LSTM模型 34

4.5 本章小结 34

第五章 总结与展望 35

5.1总结 35

5.2 展望 36

参考文献 37

致谢 39

第一章 绪论

1.1研究背景

1.1.1金融领域汉语短文本分类必要性

上海证券交易所于1990年12月19日成立,我国金融市场由此展开序幕并逐渐走上世界金融舞台。近三十年来,我国金融市场作为一个新兴市场,快速发展、取得了长足的进步和巨大的成就。截至2019年5月,上海证券交易所和深圳证券交易所共有3593家公司上市,总市值达到6.8万亿美元。

近年来,信息技术飞速发展的大环境下,传统金融机构联合新兴的互联网企业,开发了在线支付、多方融资、信息中介和多元化投资等服务,金融业务模式悄然发生变化,互联网金融成为金融科技(Fintech)领域的重要形态之一。与传统金融行业相比,互联网金融具有效率高、成本低、范围广、操作便捷等特点,逐渐占据市场优势。相应的,这种新模式也带来了很多新问题,市场流动性指数型增长,金融市场门槛急剧降低、相关部门监管困难,伴随而来的市场易变性和业务复杂化对传统经济学、金融学的研究提出了严峻的挑战。

剩余内容已隐藏,请支付后下载全文,论文总字数:29455字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;