基于神经网络算法的医疗费用数据挖掘

 2022-01-17 11:01

论文总字数:21904字

目 录

1 绪论3

1.1研究背景3

1.2国内外研究现状3

1.3研究内容4

1.4论文结构4

2 医疗保险系统5

2.1医疗保险的概念5

2.2医疗保险系统的构成5

2.3医疗保险主体之间的关系6

2.4医疗保险系统中存在的信息不对称问题6

2.5本章小结6

3 数据挖掘概述7

3.1数据挖掘的起源与定义7

3.2数据挖掘的步骤7

3.3数据挖掘算法8

3.4数据挖掘的应用9

3.5医疗保险数据挖掘时需要注意的问题9

3.6本章小结10

4 基于BP神经网络算法的住院费用的主要影响因素挖掘10

4.1基于人工神经网络的主要影响因素提取10

4.1.1人工神经网络概述10

4.1.2 BP神经网络算法11

4.2数据预处理12

4.3基于Feature Selection的主要影响因素提取13

4.4住院费用影响因素挖掘14

4.5主要影响因素的分析20

4.5.1入院情况的影响20

4.5.2住院天数的影响22

4.5.3医院等级的影响23

4.5.4出院情况的影响24

4.5.5是否手术的影响25

4.6本章小结25

5 基于Kohonen神经网络算法的住院费用标准制定25

5.1 Kohonen神经网络25

5.2对患者进行聚类分析26

5.3住院费用以及住院天数标准30

5.4本章小结30

6 总结30

参考文献31

致谢33

基于神经网络算法的医疗费用数据挖掘

董昞昊

,China

Abstract: Medical insurance expenses is an important worldwide topic, it is the key to the development of the medical insurance that how to control the medical insurance expenses. However, because of the particularity of the medical sector, the asymmetry of information between medical insurance system triggers medical insurance expenses increase unreasonably. If we want to deal with the problem, we should focus on the balance of the data. Medical insurance data mining will provide us a lot of valuable information, which as a reference to resolve the problem and have a giant significance.

As a common platform for data mining, SPSS modeler 14.1 has been widely used in e-commerce, education, finance, communication and other fields with its powerful and convenient capabilities. In this paper, data mining based on the functions such as neural network and visualization can find out the main factors which affect the expanses, so that we can get the forecast about the characteristic in the medical insurance data. The conclusion can solve the dilemma of the information asymmetry as a reference, provide basis to make policy, relieve the problem between medical insurance system. What is more, the use of data mining technology can help to increase the efficiency, quality and management level of the medical insurance management.

Key words;Data mining Medical expenses Information asymmetry SPSS modeler 14.1

  1. 绪论
    1. 研究背景

最近的几十年里,因为科技水平的不停进步,计算机技术与医疗行业不断结合在一起,国内的绝大部分医院都建立了自己的医疗信息系统(HIS)。随着时间的流逝,系统中积累了大量的卫生信息,其中有患者的身份资料,病情状况,药物使用,保险信息等有很大意义的资料。但是我们对于这些信息的使用一般只是数据查询,添加,修改等基本操作,各个系统产生的数据只是被单独地使用于日常性数据操作中,无法得到充分的利用。因此,怎么样在大量的卫生信息中获取对我们有用的数据是一个不容易解决的问题。

作为卫生数据里相当重要的一部分,医疗保险费用的合理管理成了现今当局的一大困扰。在中国,社会医疗保险由国家有关机构负责。强制要求人们参加保险并且属于社会福利,它的主要目标是保证民众的健康,减少卫生资源浪费。但是由于医疗资料的不透明,导致医生和病人之间有信任问题。进而影响卫生资源的合理利用,医疗保险费用不合常规增长。要解决这类问题,就需要有更好的数据挖掘技术。

这几十年里,由于数据挖掘技术的进步,为数据的进一步挖掘提供了相应的手段。在原有数据库技术的基础上,发明出更有用的软件,使用不同的算法对信息进行进一步的挖掘分析,由此得到隐藏的可利用数据。数据挖掘技术普遍在金融业,制造业,医疗行业中使用,而且都得到了很高的评价,产生了巨大的意义。例如,超市可以利用数据挖掘技术分析顾客的购物习惯,将存在联系的商品放置在同一货架,这样既可以方便顾客的选购,同时也能提高销售量。将数据挖掘技术应用在医疗保险数据中,可以分析得出医保数据间存在的潜在关系,并且以此为基础,为医保机构决策层提供数据参考,有效处理数据不透明的难题,缓解医生与病人的矛盾,同时控制医疗保险费用。

    1. 国内外研究现状

在其他国家,现在已有很多研究者分析了怎样将数据挖掘技术应用到卫生行业。Marisa[1]主要运用关联规则分析医疗信息,得到新的一种行为模式。并且告诉了我们数据挖掘技术在卫生领域存在的巨大作用,能够运用它来获得原本的方法不能得到的东西,给相关的机构提供了许多好处,也能够给予一定的参考。该方法还应用在相关组织的管控、患者状况的预计、保险金额标准的拟定等,用来处理客观问题,并得到了很好的结果。Kraft.M.R为首的研究者利用神经网络算法去估计病人的住院时间,特别是脊髓受到伤害的病人。因为这类病人在医院治疗的时间多而且花费较多,能够知道大概的治疗时间能够帮助合理的提供必须的资源,最后达到减少花费的目的。Chae他们主要运用的是决策树算法和关联分析。他们对韩国的高血压病人资料进行预测分析,给予了怎么样控制该病种的资料。Bertsimas研究学习了分类树和聚类分析。通过这两种算法来给出他们对医疗花费的预计分析,还给出了以下论述:(1)数据挖掘算法能够准确的提供医疗费用的预测;(2)累积的传统记录能对将来的医疗费用做出准确的预计(3)卫生数据仅仅对高花费的患者的费用评估有用。

在我们国家,天津总医院利用数据挖掘技术对糖尿病和它的伴随症状做了分析。陈雪峰这一群人创造的恶性血液病数据库分析系统就是利用了数据挖掘技术,这个即能够协助卫生工作者得到正确的病情认知也针对信息有了很好的处理解析能力。[2]最近几年来,卫生大数据研究在中国慢慢流行且己经参与到民众的正常活动中,还提供了很多方便。在14年6月,百度疾病预测出现在市场上,它能够提供感冒等许多常见病情的普遍程度,和其他病情的多发地点和病例较多的机构排行,网友们可以浏览过去一周的数据和将来一周的预计分析。[3]而这一效果的完成体现就是凭借数据挖掘技术,以百度的大量积累的数据信息为基础完成无监督学习来预测疾病的变动。

尽管全世界的学者们对卫生行业的数据挖掘技术应用有了一定程度的学习分析。但是随着医疗事业的进步,医保系统的不断完善,环境对技术提出了新的需求,这就需要我们不断更新现有的知识,探索更先进的技术来满足行业的需求。

    1. 研究内容

本文主要围绕数据挖掘技术在医保费用预测这一主题进行讨论,其中运用到了现今广泛运用的神经网络相关算法以及工具SPSS modeler 14.1分析单病种的住院费用影响因素,并制定相关的费用标准,提供给医保机构作为参考,对不合理的医保费用有一定改变。具体如下。

首先,对本文论述所需要的有关概念,定义做了整体的转述,其中最重要的是医疗保险系统和数据挖掘技术。对于医疗保险系统,主要介绍了系统中主体间的关系以及存在的信息不对称问题,导致产生医疗费用不合理的问题,为后面的影响因素分析并制定标准提供基础。对于数据挖掘,主要介绍了现今广泛运用的主要算法,然后运用其中的人工神经网络对医疗数据进行挖掘研究。

其次,我们将从各大医院获得并收集需要的数据,然后做了整理规范。再运用SPSS modeler 14.1中的BP神经网络模型对医疗费用的主要影响因素进行提取研究,预测每一个因素对于医疗费用的重要性,并以此为基础,利用散点图、直方图等可视化功能深入分析每一个重要因素。然后区分其重要程度,医疗费用对各个因素的敏感度,接着利用Kohonen神经网络模型根据费用的主要影响因素对其进行聚类分析,然后以此为基础制定出有效的费用标准。

    1. 论文结构

本文由六章组成,具体如下。

第一章,绪论部分,主要介绍了医疗费用数据挖掘方面的相关背景,国内外研究现状,而且概括了主要的研究手段。

剩余内容已隐藏,请支付后下载全文,论文总字数:21904字

相关图片展示:

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;