基于web的歌词词频分析系统的设计与实现

 2022-01-17 11:01

论文总字数:27308字

目 录

1. 绪论 6

1.1. 研究背景 6

1.2. 国内外研究现状 6

1.3. 与市场上其他产品的对比 8

1.3.1互联网音乐平台 8

1.3.2云笔记软件 9

1.3.3其他词语关联可视化网站 11

1.4. 本文技术路线 12

2. 可行性分析和相关技术简介 12

2.1. 可行性分析 12

2.1.1技术可行性 12

2.1.2经济可行性 12

2.1.3操作可行性 13

2.2. 相关技术简介 13

2.2.1JSP简介 13

2.2.2MySQL简介 13

2.2.3Jieba分词算法简介 13

3. 需求分析和概要设计 14

3.1. 各功能模块设计 14

3.1.1歌词管理模块 14

3.1.2大字典模块 14

3.1.3查询共现词(所在全文)模块 15

3.1.4查询共现词(所在句子)模块 15

3.2. 数据库设计 15

3.2.1数据库实体联系设计 15

3.2.2数据表结构设计 17

4. 各功能模块实现和测试 18

4.1. 测试数据采集和入库 18

4.2. 歌词管理模块 24

4.3. 大字典模块 24

4.4. 查询共现词(所在全文)模块 29

4.5. 查询共现词(所在句子)模块 33

5. 结语 36

5.1. 本文小结 36

5.2. 存在的不足 37

参考文献 38

致谢 39

绪论

研究背景

近年来,随着互联网上各类音乐平台的兴起,流行音乐市场进入百花齐放的多元化时代。具体表现为独立音乐人迅速崛起,具有垄断地位的明星和曲风日渐减少。而随之而来的大量歌词文本,也为文学爱好者们提供了丰富的研究素材。但面对如此海量的数据,该如何根据自己的个性化需求,快速挖掘出高价值的信息,似乎成为了一个急需解决的问题。

另一方面,随着数量的增多,文艺作品同质化的现象也越发明显,读者也越难以从中获取审美体验。什克洛夫斯基在《作为手法的艺术》中说:“艺术的目的是使你对事物的感觉如同你所见得视象那样,而不是如同你所认知的那样;艺术的手法是事物的‘反常化’手法,是复杂化形式的手法,它增加了感受的难度和时延。”[1]毕竟再高超的艺术手法,若欣赏的次数过多,总会令人索然无味。这和经济学中的“边际递减”理论有异曲同工之妙。

因此,艺术的目的之一,便是让人们不断获得对身边常见事物的新的认知。宋初诗坛流行的白体、晚唐体、西昆体,基本上都处于唐诗的影响下。欧阳修和苏轼等人不满世人作诗的陈词滥调,提出作“禁体诗”,后发展为“白战体”,即主动地放弃惯用的语词和事典,通过言用不言体等方法“使熟者生,使文者野”,与审美主体拉开一定的距离,给人新奇、惊异之感。如欧阳修在皇祐二年(1050)写的《雪》,其诗序曰:“时在颍州作。玉、月、梨、梅、练、絮、白、舞、鹅、鹤、银等事,皆请勿用”。[2]

回到流行歌曲的歌词创作领域,避免“涉前人馀意”的方法之一便是避免过于常见的词语搭配。词语捂配研究是当今语料库语言学中受到高度关注的研究领域。词语捂配研究之父Firth( 1957)曾说“You shall Know a word by the company it keeps.”即词的意义从与它结伴同现的词中体现[3]。自20世纪60年代人类历史上第一个计算机语料库——Brown语料库问世以来,语言学界越来越认识到用计算机采集的大规模语料库对于语言学实证研究的重要作用。用户通过本文设计的系统进行检索,便可在海量数据中直观看到词组间的搭配规律,从中挖掘有用的文学信息。而当用户已有了一两句较好的句子,想要快速补充完成整篇歌词时,也可以在本系统中查找一些常用的经典搭配。毕竟某一篇文本只要在一处或几处进行创新便已足矣,处处出奇实在过于困难。具体请查看本文第三章“系统功能介绍和演示”。

国内外研究现状

由于诗词和歌词存在一定的相似性,为了研究和行文叙述的方便,本文在某些情况下会将研究对象扩大到歌词加上诗词。

关于古今中外各类诗词歌词的研究,目前主要集中在以下三个方面。

第一个方面,是以语言学理论为主,或结合较为简单的词频分析,针对某一作者、主题或风格的歌词诗词的相关研究。如陈立裙通过语言学中的“偏离搭配”等理论,对林夕歌词中大量的语言偏离搭配现象进行了分析研究,并把歌词与诗歌的偏离搭配进行了对比分析,从零度与偏离的角度,分析歌词的语言风格和语体特征,以期求证歌词与诗歌的差别[4]。荣琳琳从语言学的角度,以方文山从1999年到2010的168部音乐作品为文本依据,对他的作品从语音、词汇、语法和修辞等方面进行系统地分析总结,揭示共同规律[5]。罗茂蝶本文通过搜集大量语言材料并进行综合整理,分析网络古风歌曲歌词的语音使用、词汇使用和修辞句式使用,探讨网络古风歌曲出现的社会原因,指出其中部分歌曲歌词的语言不规范使用现象,并对此提出了建议[6] 。王蓉查检《先秦汉魏晋南北朝诗》、《全唐诗》等相关文献,辑得与扬州有关的诗篇四百余首,并对其中涉及扬州的意象一一作了统计。结合统计数字将“山水”、“花木”、“鸟和云”、“季节晨昏”、“月”、“灯火歌舞”、“建筑和朝代”、“帆、船和桥”这八类意象进行了对比和逐一分析[7]。司书娟采用《中华诗词博览2009年版》软件获取唐宋6位茶人的516首茶诗词,根据意象类别一具体意象一诗词中对其的描述一意象特征一主题维度的研究思路确定出“茶意象”所具有主题维度;继而根据卡方检验和频次统计,从“茶意象”的主题维度中进一步确定其所具有的维度特点;最后,查阅相关心理学、茶文化资料对结果做进一步的分析、讨论[8] 。该方面的国外研究,英文歌曲是主要的研究对象,对中文歌曲的研究仅有一些相对较小的圈子,且多是从曲风的角度出发的研究。真正开启国外学者对中国现代歌曲研究新篇章的文章是Nimrod Baranovitch的China's New Voices C 2003 ),概述了中国歌曲近20年的发展,但是并未敲开中国风歌曲研究的大门[9]

第二个方面,是改进并应用各类机器学习算法,对诗词歌词进行情感判别以及自动生成的相关研究。如吴斌等人提出了一个基于短文本特征扩展的迁移学习模型CATLPCO。该模型首先基于频繁词对对古文特征向量进行扩展,再通过迁移学习方式,建立三个分类器并投票得出最后的情感分析结果。该模型克服了古文短文本特征稀疏的难点,在此基础上进一步解决由于现代译文信息匮乏所导致的古代诗歌情感分析困难问题[10]。周昌乐等人根据宋词特点,设计了基于平仄的编码方式、基于句法和语义加权值的适应度函数、基于精英主义和轮盘赌算法的选择策略,采用部分映射和启发式交叉算子和启发式变异算子,从而构建了一种基于遗传算法的宋词生成计算模型并进行了系统实现,对于给定的主题词和词牌,基本上能够自动生成有一定欣赏价值的宋词[11]。蒋锐滢等人设计的格律诗自动生成算法,根据创作者提交的若干关键词,利用主题模型进行扩展得到更多的主题相关词,然后通过语言模型自动生成首句.在此基础上通过统计机器翻译的方法生成后续句。在生成过程中,利用主题模型进行诗词的意境扩展,从而得到更加丰富的句子候选[12]。国外诗词生成研究始于1959年lutz用计算机生成的第1首德文诗[13]。诗歌生成的方法可被分类成基于模板的生成方法、生成并测试的方法[14]、基于遗传算法的方法[15]和基于实例推理的方法[16],且较国内更加成熟。

第三个方面,是关于歌词诗词的相关信息系统的设计与实现。一类是应用了上述各类机器学习算法的系统。如 基于RNN算法的“猎户星免费在线写诗软件”[17](http://www.dopoem.com/)。另一类是算法虽不复杂,但界面功能丰富的系统。如朱则杰等人早在20年前就设计实现了“全清诗人管理系统”,和“全清诗集管理系统”一起为《全清诗》的编撰工作服务[18]。袁慧以《全唐诗》作为标注对象,通过使用自然语言处理技术,结合唐诗句法、格律等特点,构建了一个全唐诗分词及词性标注语料库系统。除了加入传统电子古籍化检索、音韵标注等基本功能,还加入了校对补编、词性标注等信息。并且可以实现对语料本身进行补编校对,有利于古诗词研究者的使用[19]。范培林等人发明了一种诗词关联搜索方法和系统,将检索结果中的某一条诗词置为中心知识对象,将其其他信息作为发散知识对象,构建两者的可视化网络[20]。而更多业界较为著名的网站系统,本文将在下一节中详细介绍。

还有一类研究,虽然研究对象不是诗词歌词而是其他文本,但所用的研究方法与本文类相似。即基于语料库对词语搭配进行定量研究,主要用于外语教学、词典编撰等。如岳士君通过语料库驱动的办法,对“保持”和“维持”的词语搭配作了定量与定性分析,得出结论:“保持”前只能加“还、仍然、一直”等副词,而“维持”还可以加“只、才、只能”等副词;“保持”后还常常跟与人心理有关的形容词搭配,且常常是积极的,维持后接的名词常常是个人的最低需求,如生活、生计、生命,维持后最常接名词“秩序”[21]。吕怡宁以中国英语学习者语料库为基础,分析了“侥幸”类副词luckily、fortunately和happily的使用情况。发现了部分学生用词不规范之处,为英语教师提供了相关建议[22]。赵圣花等人通过‘`NLB”语料库主要调查了相当于汉语“盖”动作的日语“被せ石”‘塞ㄑ’かける”‘覆う”动词与前接名词搭配情况,为日语教学提供帮助[23]

综上所述,目前基于语料库的流行歌词的用词搭配研究还比较少。且市场上也还没有一个能让研究者自由选择研究词汇、操作方便的信息系统。因此本文的研究具有一定的价值。

与市场上其他产品的对比

下面列举一些市面上常见的歌词诗词管理系统。主要分为三类:互联网音乐平台、云笔记软件和一些词语关联可视化网站。

1.3.1互联网音乐平台

包括网易云音乐、酷狗音乐、酷我音乐、QQ音乐、51sing等平台。本文仅简单测试网易云音乐和酷狗音乐。网易云音乐是网易公司于2013 年4 月23 日推出的一款专注于发现和分享的数字音乐产品。是其在移动互联网领域的重要布局。在互联网音乐网民超过5 亿,手机音乐客户端用户规模达到3.95 亿,整体市场增长约为20.4%的传媒市场大环境下,网易云音乐的发展如鱼得水,荣获“中国十佳移动互联网应用”称号。然而,它的真正卖点却是其超过6400 万个用户的自建歌单和每月逾500 万的精彩乐评,后者尤为突出[24]。酷狗音乐是广州酷狗计算机科技有限公司于2004年发布的数字音乐产品,其优势主要在于较早起步积累的原始用户,独特的音频渲染技术提供的众多特殊音效,以及在部分领域多于网易云音乐的歌曲资源。

打开网易云音乐,在搜索框中依次输入 “三月”、“月”,如图1-1和1-2所示,在“歌词”选项卡下始终只有60条记录。可得知应是网易云后台人为限制了显示上限。

图1-1 在网易云音乐中检索“三月”

剩余内容已隐藏,请支付后下载全文,论文总字数:27308字

相关图片展示:

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;