基于迁移学习的通用本体学习方法实现与改进

 2022-02-07 09:02

论文总字数:27508字

摘 要

随着互联网的快速普及,如何科学地组织、管理和维护海量信息成为一项重要的研究课题。本体是共享概念模型的形式化规范说明,能够在语义和知识层次上描述信息。对本体的研究在计算机领域变得越来越广泛。本体学习是解决本体构建的重要手段,它利用统计、机器学习、自然语言处理等技术自动(半自动)地从已有的数据源中获得期望的本体。许多本体学习方法都是针对特定领域的,其在特定领域有很好的效果,但对于其他领域则不然。对于通用本体学习方法的研究相对较少。之前有研究者提出了,基于迁移学习的通用本体学习方法,突破了领域的依赖性,使其扩展为跨领域的通用学习模型。在这里,对于其所提出的,基于迁移学习的通用本体学习方法,进行了系统实现,进行了相关实验与分析,并且提出了优化的方案。

本文的主要内容,首先介绍了本体学习的相关知识;然后对于基于迁移学习的通用本体学习方法的架构以及相关算法做了描述;接着在实现的系统上做了相关实验,进行了相关分析。

关键词:本体,本体学习,迁移学习,机器学习

THE IMPLEMENTATION AND IMPROVEMENT OF GENERIC ONTOLOGY LEARNING METHOD BASED ON TRANSFER LEARNING

Abstract

With the rapid popularization of the Internet, how to organize, manage and maintain the mass information has become an important research topic. Ontology is a formal specification of the shared conceptual model, which can describe the information on the semantic and knowledge level. In the field of computer, the research on ontology is becoming more and more extensive. Ontology learning is an important means to solve the ontology construction. It uses statistics, machine learning, Natural Language Processing and other technologies to obtain the desired ontology from the existing data sources automatically (semi automatically). Many ontology learning methods are aimed at a specific domain, which have a good effect in it, but not in other domains. The research of generic ontology learning method is relatively few. A researcher proposed a generic ontology learning method based on transfer learning before,whitch broke through the dependence of domain, so that it is extended to a cross-domain general learning model.Here, I realized his method, carried on the experiment and the analysis, and proposed the optimization methods.

The main content of this paper: First, introduces the related knowledge of ontology learning; Second, describes the structure and the related algorithm.

KEY WORDS: Ontology, Ontology Learning, Transfer Learning, Machine Learning

目 录

摘要 1

ABSTRACT 2

第一章 绪 论 5

1.1 研究背景 5

1.2 研究现状 5

1.2.1 web信息抽取研究现状 5

1.2.2 本体学习研究现状 6

1.2.3 迁移学习研究现状 6

1.3 本文的主要研究内容 7

1.4 论文组织结构 7

第二章 相关概念定义分析 8

2.1 本体 8

2.1.1本体概念 8

2.1.2 本体学习 8

2.2 迁移学习 9

第三章 算法介绍 10

3.1 网页分块算法 10

3.1.1 VIPS算法 10

3.1.2引入基于DOM树分析的方法修正分块结果 12

3.1.3组合分块算法 13

3.2 迁移学习模型 14

3.2.1 最大熵模型 14

3.2.2 基于最大熵的迁移学习算法 14

3.3 本体生成算法 19

第四章 系统总体实现方法 21

4.1 系统总体实现方法 21

4.2 系统模块详细说明 21

4.2.1 预处理模块 21

4.2.2 特征提取模块 22

4.2.3 迁移学习模块 23

4.2.4 本体生成模块 23

第五章 系统实现及实验分析 25

5.1 数据集 25

5.2迁移学习的实验及分析 25

5.2.1 标签比例与特征函数权重的分布关系 25

5.2.2 权重分布与相关系数的关系 28

5.2.3 迁移学习中有关训练集划分的实验 29

第六章 总结 33

致 谢 34

参考文献 35

绪 论

    1. 研究背景

随着网络技术的发展和社会信息化程度的不断提高, 无数新信息迅速产生,使得数据的表示不仅仅停留在语法层面,更需要聚焦在语义层面。何科学地组织、管理和维护海量信息以便为用户提供有效的服务成为一项重要而迫切的研究课题。本体作为一种能够在语义知识层面上描述数据与信息的概念模型,为解决语义层面的理解与沟通的问题提供了有效的途径。对本体的研究在计算机领域变得越来越广泛。实现自动或半自动构建本体逐渐成为一个研究热点,而用来实现本体元素自动获取的一系列方法和技术称为本体学习。本体学习是解决本体构建的重要手段,它利用统计、机器学习、自然语言处理等技术自动(半自动)地从已有的数据源中获得期望的本体。针对某一特定的领域本体学习已经有大量的研究工作[1-2]。而获得可以扩展到其他领域的通用化本体学习方法是一个难题。现在对于通用化本体的研究有了很大进展[3-4],但是对于网页这种半结构化文本来说,使用传统的机器学习算法以及自然语言处理的方法都存在着一些问题。传统的机器学习需要对于每个领域标定大量的训练数据,并且传统的机器学习都有同分布假设,即训练数据与测试数据服从相同的数据分布,但许多情况下并不满足这个假设。迁移学习主要关注的问题是如何利用大量在不同分布下的训练数据。迁移学习的目标是,用某一环境中学习得到的知识,来帮助新环境中的知识学习。而迁移学习正好能够在充分利用网页信息的同时解决通用性的问题。

    1. 研究现状

本文内容主要涉及到三个方面:web信息抽取、迁移学习、本体学习。分别介绍了这三个领域的研究现状。

1.2.1 web信息抽取研究现状

Web信息抽取是将Web作为信息源的信息抽取。Web作为一个巨大的信息源,上面的信息可以分为:结构化文本、半结构化文本、自由文本三种类别[5]。针对这三种文本,信息抽取可以分为:

  1. 结构化文本的信息抽取:结构化文本主要是数据库中的文本信息或者遵循预先定义的严格格式的文本。由于可以利用格式描述来抽取从信息,所以相比较之下此类任务最为简单。
  2. 半结构化文本的信息抽取:半结构化文本是介于结构化文本和自由文本之间的类型,其抽取模式通常是基于标记和分界符,句法和语义信息只是在一定范围内被使用。例如,HTML文件就是一种半结构化文本,可以利用HTML标记对其进行简单的信息抽取。
  3. 自由格式文本的信息抽取:这类文本的信息抽取相对来说是最难的,其抽取模式通常基于语法和语义约束。这类文本的抽取技术运用了自然语言处理中大量技术,例如:句法分析、语义分析、专有对象的实体识别和规则抽取等。

现有的Web信息抽取技术主要可以分为:基于统计理论的技术、基于视觉特征的技术、基于DOM树结构的技术、基于模板的技术等。

  1. 基于统计理论的技术:通过统计各个标签所包含的信息量或链接文本的比值来获取网页的主题信息。例如Gupta等人设计的Crunch系统[6]。
  2. 基于视觉特征的技术:这类技术结合了网页的视觉特征来抽取信息。微软亚洲研究院提出了利用网页的视觉特征来抽取信息的VIPS算法[7]
  3. 基于DOM树结构的技术:网页标签的DOM模型通常呈现树状结构,利用这一特征通过针对树的操作,从而获得部分特征。例如,通过判断页面中数据密集区域达到抽取页面主题信息目的的DSE算法[8]。
  4. 基于模板的技术:通过对产生于同一模板的网页的对比分析总结出一个通用的抽取模板。

1.2.2 本体学习研究现状

本体学习是信息提取的一个子任务,目标是自动或半自动地从给定的语料库或数据源中提取概念和关系,形成本体。本体学习的相关概念包括本体生成、本体挖掘和本体抽取等。本体学习的基本理论方法有自然语言处理、机器学习等,到现在已初步形成其体系框架结构。当前,研究者们已经开发出多个本体学习系统,例如TextToOnto[9]和OntoLearn[10]系统。当前本体学习研究的重点在于概念和概念关系的自动抽取。[11]

概念抽取方法可分为三种

  1. 基于语言学的概念抽取:利用语言学的相关知识分析领域文本,抽取概念。
  2. 基于统计的概念抽取:一般通过计算领域术语的词频、词语长度、领域分布率、领域相关度、领域一致度、合成词内部的结合程度等来筛选领域概念。
  3. 混合方法:将基于统计的方法和基于语言学的方法结合。

概念关系的识别方法可以分为

  1. 基于结构化词表的方法:结构化词表既包括传统结构化词典,又包括各类机器可读词典。
  2. 基于语言学的方法:通过语法分析、句法分析、依存结构分析以及语义分析等来识别概念间的等级关系。
  3. 基于统计的方法:包括基于聚类的等级关系识别和基于关联规则的概念关系挖掘。

1.2.3 迁移学习研究现状

传统的机器学习需要对于每个领域标定大量的训练数据,并且传统的机器学习都有同分布假设,即训练数据与测试数据服从相同的数据分布,但许多情况下并不满足这个假设。迁移学习的目标是,用某一环境中学习得到的知识,来帮助新环境中的知识学习。[12]

剩余内容已隐藏,请支付后下载全文,论文总字数:27508字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;