面向文本的基于深度学习的药物-药物相互作用信息抽取

 2021-12-12 02:12

论文总字数:25045字

摘 要

药物-药物相互作用(DDI),是指两种或两种以上的药物同时或前后使用时,导致药物作用增强或减弱的情况。因此,从医人员在对症下药时,为了避免药物间的不利影响,DDI的相关信息十分重要。由于目前大部分有关DDI的信息都淹没在海量的生物医学文献中,DDI的自动抽取将为从医人员带来很多便捷。然而,现有的DDI自动抽取系统几乎都是基于监督式的特征学习模型建立起来的,对于没有生物医学知识的技术人员来说,设计DDI的文本特征需要花费大量的时间和精力,并且,固定的特征集将无法适应多样的数据集。本文的研究目的,就是希望探索出一种能够使系统自主学习文本特征的方式,让DDI的自动抽取更加高效、准确,同时也不用受到特定领域专业知识的限制。

经过一系列的探索性实验,文本提出了一条DDI自动抽取的方法路线:首先提取出数据集中包含DDI触发词和相关药物的最小语法树子句,再基于一定的语义规则,将训练集进行过滤处理;使用半监督式的RAE模型学习所得训练集的文本特征,以测试集作为实验结果的检验数据,评估该DDI自动抽取方法的性能。

实验结果表明,本文提出的DDI自动抽取方法的F分数能够达到85%的平均水平,超出目前最先进的DDI自动抽取系统3到42个百分点。该方法的创新之处在于使用半监督式的RAE模型,在不需要自行设计文本特征的情况下完成DDI的自动抽取。

关键词:DDI自动抽取,训练集,测试集,语法树,半监督学习,RAE

Extract drug-drug interactions from biomedical text based on deep learning

Abstract

Drug-drug interaction (DDI), refers to the situation that one drug increase or decrease the effect of another drug when two or more drugs are used together. Therefore, in order to avoid adverse effect, it is important for healthcare professionals to take the information of DDI into consideration when giving treatment. As most of the information of DDI is submerged in the flood of the biomedical literature, automatic DDI extraction will definitely bring a lot of convenience for healthcare professionals. However, almost all the existing DDI automatic extraction systems are built on a supervised learning model. For system developers who have no knowledge of biomedical domain, the work of feature designing of DDI information is time-consuming and laborious. Besides, DDI information from different databases may have different features. The purpose of this study is to explore a way to make the system design text features by self-learning, which allows the automatic DDI extraction being more efficient and accurate, and no need of specific areas of expertise.

After a series of exploratory experiments, this thesis proposes a technical roadmap of automatic DDI extraction. Firstly construct a syntax tree for every sentence and then extract the minimal clauses, which contain trigger words and related drugs. Secondly filter a portion of instances from training set according to certain semantic rules. Thirdly use semi-supervised RAE model as the tool for data training, and use test sets for testing the performance of the system.

The results shows that after data processing, the system reaches 85 percent of F score by using semi-supervised RAE for training, exceeding the most advanced automatic DDI extraction system 3 to 42 percent. The innovation of this method is the use of semi-supervised RAE model, which completes the automatic DDI extraction without manually designing features.

KEY WORDS: DDI extraction, train datasets, test datasets, syntax tree, semi-supervised learing, RAE

目录

摘 要 2

Abstract 3

第一章 绪论 5

1.1 引言 5

1.2 DDI文本信息自动提取的发展现状 5

1.3 DDI信息提取的常用方法 6

1.3.1 基于特征的DDI自动抽取 6

1.3.2 基于内核的DDI自动抽取 6

第二章 方法 8

2.1 数据集处理 8

2.1.1 药物信息提取 8

2.1.2 寻找最小语法树 10

2.1.4 触发词处理 11

2.1.5 数据过滤策略 12

2.2 RAE模型 13

2.2.1 RAE模型介绍 14

2.2.2 性能扩展 15

2.2.3 训练参数学习 17

第三章 实验结果 18

3.1 结果评估 18

3.2 性能分析 23

结论 24

致谢 25

参考文献(References) 26

绪论

1.1 引言

当两种或是两种以上的药物同时使用或前后使用时,由于药物内的化学物质相互反应,或是药物之间代谢互相干扰,导致药物作用增强、减弱、失效,出现副作用甚至是产生毒性的情况,即药物-药物的相互作用(DDI)。在医学领域中,有许多药物在设计时因为没有考虑到DDI而常常出现副作用,也有许多病患因为DDI的影响而延迟了康复的时间。因此,有关DDI的信息能够帮助从医人员在设计药物时更加高效和安全;在施加药物的同时,避免对患者的健康造成不利影响。虽然目前有许多专门为DDI设计的数据库,如DrugBank(http://www.drugbank.ca),MICROMEDEX(http://micromedex.com)等。但它们所覆盖的范围是有限的,并且在现有数据库之中,DDI的列表有所差异,大部分关于DDI的信息则需要从海量的生物医学文献和科学出版物中抽取。随着不断涌现的生物医学论文和期刊持续向人们提供新发现的DDI,在庞大的资料和数据面前,及时并有效地获取到相关DDI的技术变得尤为重要。

目前已有许多DDI自动抽取技术着力于处理这些庞大的信息,但是由于专业领域的限制,即文本信息在不同领域有着不同的特征集,并且不同数据库中的DDI信息,其特征集也有很大的差异,所以,监督式特征学习的工作量十分巨大且复杂。另一方面,人们对生物医学信息的分析和处理进度远远落后于信息本身的增长,因此,采用无监督式特征学习的方式,对这些药物信息文本进行集中处理,从中提取出相应的DDI关键信息,具有一定的现实意义。

1.2 DDI文本信息自动提取的发展现状

随着生物医学领域研究的飞速发展,大量的生物医学知识不断更新变化,它们以非结构化的形式存在于各种形式的文本中。例如国际上生物医学领域的权威数据库MEDLINE ( Medical Literature Analysisand Retrieval System Online ) ,近年来年均发表文献超过60万篇,文献总数目前已达到1600万篇[6]。所以,有效地利用这些文本文件中所包含的生物医学信息,对分析海量的生物医学数据十分重要。用户常用的方法是在MEDLINE中或者互联网上使用关键词进行检索,但是这仅能从大量文档集合中找到一些相关的文件列表,而无法从文本中直接抽取用户所需要的具体信息。因此,提供从大规模生物医学文献中自动获取相关知识的有效工具是一项迫在眉睫的任务。

剩余内容已隐藏,请支付后下载全文,论文总字数:25045字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;