基于词嵌入的Disjointness公理学习

 2022-02-14 09:02

论文总字数:29631字

摘 要

知识图谱是当前比较热门的一个主题, 在知识图谱中, 每个结点指代的是本体, 结点和结点之间通过关系连接. 在我的论文中, 选取的就是比较经典的上下位关系. 同时, 实体和关系的向量分布表示是一种高效的方法, 它有助于我们在关联数据, 如知识图谱上运用机器学习算法进行学习或挖掘信息.

本次工作的主要任务基于Word Embedding和Holographic Embeddings两种方法, 首先是复现两种算法在其适合的数据集上的效果, 之后对比探究其在从直接上下位到间接上下位学习上的表现.

就结果而言, 虽然两种算法在它们各自擅长的领域效果很好, 但并不适合单一上下位关系的数据集下从直接上下位推导间接上下位. 后续工作应将工作重点放在更加泛用的DBPedia或者WordNet数据集.

关键词: 上下位, 词向量, 全息词向量, 知识图谱

Word embedding based Hierarchy learning

09012324 Weizhao Xin

Instructor: Guilin Qi

Abstract

Currently, knowledge graph is a hot topic. Nodes in the knowledge graph indicate ontology, connected by relations. In this work, we pay attention to a specified relation: hierarchy. Meanwhile, learning embeddings of entities and relations is an efficient method to perform machine learning and dig information on relational data such as knowledge graphs. This work is based on Word Embedding and Holographic Embeddings.

After deploying them on the suitable data set, we want to inquiry the performance of them in learning indirect hypernym–hyponym relations from direct hypernym–hyponym relations and and compare the results.

In terms of results, the two methods only works well on the suitable dataset but can not lead to satisfactory results in learning indirect hypernym–hyponym relations from direct hypernym–hyponym relations. In the future work, we should make full use of other datasets like DBPedia or WordNet.

keywords: Hierarchy, Word Embedding, Holographic Embedding, Knowledge Graph

目录

摘要 1

Abstract 2

第一章 引言 5

1.1 研究背景 5

1.2 本文工作 6

1.3 文章组织结构 6

第二章 知识背景 7

2.1 word embedding方法来源——词向量对词语信息的保留 7

2.2 基于Holographic Embeddings的上下位学习方法基础 8

2.2.1 组合表示 9

2.2.2 已存在的知识图谱模型几种关联运算符 10

2.2.3 全息词向量(Holographic Embeddings) 11

2.2.4 圆周关联和圆周卷积的异同 12

2.2.5 关联存储(Associative Memory) 12

3.2.6 加速计算—快速傅里叶变换 14

第三章 基于词向量的上下位关系学习方法 15

3.1 目标 15

3.2 基于Word Embedding的学习 15

3.2.1 Word Embedding训练 15

3.2.2 分段线性投影 16

3.2.3上下位关系识别 16

3.3 基于Holographic Embedding的学习 17

3.3.1 损失函数 17

3.3.2 根据Associative Memory求解 17

第四章 实验 18

4.1 基于Word Embedding上下位学习实验 18

4.1.1 抓取百度百科词条 18

4.1.2 中文分词 19

4.1.3 Word2Vec训练词向量 19

4.1.4 同义词词林中抽取训练数据和测试数据 20

4.1.5 K-means 算法对所有向量减的结果做聚类 20

4.1.6 通过随机梯度下降计算映射矩阵 23

4.2 基于Holographic Embedding的上下位学习 24

4.2.1 损失函数1推导 24

4.2.2 损失函数2的求解 25

4.2.3 迭代更新 27

4.3 数据集 28

4.4 实验结果 29

4.4.1 Word Embedding 29

4.4.2 Holographic Embedding 31

4.5 本章小结 31

第五章 总结与展望 32

致谢 33

参考文献 34

第一章 引言

1.1 研究背景

让我们从词向量的历史说起. Distributed representation最早是1986年在Hinton的论文lt;lt;Learning distributed representations of conceptsgt;gt;[1]中出现, 为了使用机器学习的方式处理自然语言, 需要将自然语言的组成成分, 也就是词数字化. 一种数字化的形式是给所有词编一个独立的序号. 这种方式下词的向量化表达形式为One-hot Representation: [0,0,0…0, 1, 0,0,….0], 即一个除了编号位置外为1其他位置全零的矢量. 这种词向量表达虽然取得了不错的成果, 但它的不足也是显而易见的: 词汇鸿沟现象. 即任意两个词之间都是孤立的, 词向量完全没有表示出词语的一丁点含义. 同时, 在词汇过多的时候, 会出现"维度灾难", 即维度太高以至于计算复杂度无法控制.

另一种词向量的表达方式, Distributed Representation才是机器学习, 也是本文实验中用到的词向量分布式表达方式. 这种方式下, 词向量的每一维并非是非0即1, 而是一个浮点数. 如[0.79, -0.124, 0.8547, -0.134, …], 维度一般50或者100. 这种词向量的表达形式并非唯一, 通过不同的计算方式会得出不同的词向量. Distributed representation具有克服One-hot Representation中出现的的词汇鸿沟现象的能力, 当然最终有关词向量的相似度还要看计算词向量的算法.

剩余内容已隐藏,请支付后下载全文,论文总字数:29631字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;