面向网络用户个性化需求的信息推送方法研究

 2022-01-17 11:01

论文总字数:16450字

目 录

1 绪论 3

1.1 研究背景 3

1.2国内外研究状况 3

2 推荐方法 4

2.1 推荐方法基本概念 4

2.2 推荐方法分类 4

2.2.1基于内容的推荐算法 4

2.2.2协同过滤方法 5

2.2.3混合推荐算法 6

2.3 数据挖掘方法 6

2.3.1数据处理方法 6

2.3.2数据分析方法 7

3 基于内容的推荐算法 8

3.1 基于内容的推荐算法概述 8

3.2 算法实现 8

3.2.1 基于内容的推荐算法实现 8

3.2.2 算法流程图 9

3.3 算法结果及评价 10

3.3.1 基于内容的推荐结果 10

3.3.2 基于内容的推荐评价 11

4 协同过滤推荐算法 12

4.1 协同过滤算法概述 12

4.2 算法实现 12

4.2.1 基于物品的协同过滤算法实现 12

4.2.2 基于用户的协同过滤算法实现 13

4.2.3 算法流程图 14

4.3 算法结果及评价 14

4.3.1 协同过滤的推荐结果 14

4.3.2 协同过滤的推荐评价 16

5 混合推荐算法 17

5.1 混合推荐算法概述 17

5.2 算法实现 18

5.2.1 混合推荐算法实现 18

5.2.2 算法流程图 18

5.3 算法结果及评价 19

5.3.1 混合推荐结果 19

5.3.2 混合推荐评价 20

6 不同推荐算法的比较 21

6.1 推荐质量评价 21

6.2 实验结果分析 21

7总结与展望 23

7.1 全文总结 23

7.2 展望 23

参考文献: 24

致谢 25

面向网络用户个性化需求的信息推送方法研究

万能

, China

Abstract: With the popularity and rapid development of Internet, the explosive growth of information and a variety of classifications often make users hard to choose. According to this situation, we studied several kinds of recommend methods and introduced in detail about the content-based push method, item (or user)-based collaborative filtering push method and the hybrid push method. During the coding process, we choose Java as the main development language and use several kinds of data mining methods, such as cosine similarity, Pearson similarity, adjusted cosine similarity and methods based on neighbors, to optimize the methods and improve the accuracy. According to the experiment results, we evaluate the quality of methods and compare the differences between the methods.

Key words: Push Method; Data Mining; Quality Evaluation; Java

1 绪论

1.1 研究背景

近年来,随着信息技术的高速发展,互联网信息的过度膨胀,不仅没有产生经济效益,反而导致用户愈来愈难以找到他们需要的信息。根据大量实验数据发现,大多数的人们在做日常工作和决策时,总是依赖于其他人提出的建议。对于这些缺乏足够的个人经验和能力的人,推荐系统显得尤为重要。当他们无法从大量的信息数据找到自己最需要的信息时,个性化推荐系统会帮助他们进行信息过滤和筛选,根据用户的个人喜好和要求,不同的用户或用户组接收的推荐是不同的。

对于用户来说,个性化推荐最简单的形式是提供一个排好序的信息或物品列表供其选择。根据给出的列表,结合用户的偏好行为与各种约束条件来预测适合用户的产品或服务。通过推荐系统,用户获取信息的渠道从简单的浏览、搜索方式优化成了一种更符合人们生活习惯的信息发现方式。

为了满足不同的互联网用户的个人需求,本文针对四种推荐算法进行研究和实现,并且根据质量评价,分析不同算法的推荐效果和误差原因。

1.2国内外研究状况

卡内基梅隆大学教授Robert Armstrong于1995年第一次提出:“推荐系统”概念,先后提出的Web Watcher(推荐系统的原型)与LIRA1(个性化的推荐系统),为后来推荐算法的研发工作奠定了基础。一年后, 雅虎网站推出了第一个正式商用的推荐系统——我的雅虎,推荐系统才逐渐进入了人们的视野,为人们所熟知。全球经济的高速发展,带动了电子商务的飞速改变,更使得推荐算法获得越来越多关注,Netflix公司在2006年设立的一项关于推荐系统算法的竞赛,并且公布了部分真实的数据。该比赛的高挑战性和高额奖金吸引了学术界和产业界的很多人投身于推荐算法的研究,期间诞生了很多创新高效的算法。此外,2007年,ACM推荐系统会议(RecSys)正式成立,作为推荐技术领域的正式会议,每年都在学术界掀起讨论最新推荐方法的热潮。

近年来,国内很多平台也对推荐系统及其核心方法进行了深入的研究,甚至不少网站凭借着其高精度的推荐效果,迎来了一大批忠实用户,例如:虾米音乐、天猫、豆瓣电影等等。虾米音乐根据用户行为如试听、喜欢、下载等,分配用户算法模型的权重,通过基于协同推荐和二次标签过滤相结合的方式把各种音乐主动推送给用户,同时不断分析音乐标签,完善用户兴趣模型,优化推荐效果。天猫使用模型融合方法,将多种推荐方法进行组合,通过导购路径结构记录每个用户的实时行为,判断用户的意图,建立个性化的三维意图模型,将算法模块化、平台化,优化推荐精度。

2 推荐方法

2.1 推荐方法基本概念

推荐方法是一种通过数据计算,向用户提供物品建议信息的技术方法。推荐方法由于其算法结构和流程的多种多样,所需要的信息知识和数据来源也许会存在很大的差别。推荐方法中需要用到的数据信息一般分为三种类型:物品信息,用户信息以及用户与物品之间的关系。

  1. 物品信息

物品是系统向用户推荐内容的集合,具有复杂性和实用价值等特点。物品的各种属性与特性在不同的推送方法中可能需要因地制宜的表现形式,例如,在音乐推荐中,我们可以使用音乐的类别(如电子音乐、乡村音乐等)信息或歌手信息来描述一首歌曲;在美食推荐中,我们可以使用美食的好评个数、地理位置、所属菜系等来表示一家饭店。物品可以通过各种信息和数据来描述,有时可以简约到单一的ID,或者丰富到一组属性。

  1. 用户信息

为了使推荐可以更加合理可靠,推荐系统会使用到包含用户的各种各样的目的与特点的信息,而用户的信息则有多种不同的建模方法,这也决定于推荐的方法。例如,在协同过滤中,所有用户被建模为一个简单的列表,该列表包含每个用户对若干个物品的评分记录;在以社会统计为基础的方法中,可能会用到性别、年龄、受教育程度等基本属性。因此,一个实用的用户模型对于个性化推荐的实现起到相当重要的作用。

  1. 用户与物品关系

用户与物品关系可以看作在推送系统中进行互动的记录,包括用户提供的显式(或隐式)反馈,如评分记录、浏览次数等。评分是推荐系统收集用户物品关系数据的最常用的方式,收集显式评分时,用户需要在给定的评级范围内给出自己对物品的评价看法。本文中所提及的,用户对于使用过的物品的评分,采用的是从1到5的评分机制。

2.2 推荐方法分类

作为推荐系统的核心,推荐算法把用户的偏好作为输入来产生一个推荐列表,不同的推荐算法适用于不同场合下的推荐系统,也会产生不同的推荐效果。

2.2.1基于内容的推荐算法

(1)基于内容的推荐算法介绍

基于内容的推荐算法(Content-based Recommendations,简称CB)的基本思想是根据用户已评分对象的特征建立用户模型,并与物品内容的属性相匹配,以此为用户推荐新的感兴趣的物品。个性化模型是用户对内容属性偏好的结构化描述,该模型在考察不同实体的相关度时将会起到重要作用。推荐的主要处理过程就是将用户个人信息的特征和内容属性的特征相匹配,得到用户对内容属性的偏好,再根据上一步得到的用户的属性资料,计算出用户与包含某属性的物品的关联度。用户的属性资料如果能够准确的表现出用户的偏好,将给该算法的推荐效果带来很大优势。

(2)基于内容的推荐算法的优缺点

基于内容的推荐方法的主要优点是仅需要根据目标用户提供的偏好信息来构建自己的个性化模型,不受其他人的偏好评分影响。另一方面,当没有任何评分数据的时候,该方法也可以进行推荐,因此,没有用户评分的新物品在基于内容的推荐下,依然可以被推荐给感兴趣的用户,提高了推荐的惊喜度。

尽管如此,单纯依赖内容属性的推荐算法可能会有可分析内容有限和过度特化等局限性。可分析内容有限主要由于用户信息或者物品信息不够全面,或者物品的内容属性难以进行描述而引起的。导致这些信息匮乏的原因也不少,例如,一些隐私问题导致用户不愿意泄漏个人信息,或者获取某些物品属性类型需要昂贵的代价,如音乐、珠宝、艺术品等。另一方面,过度特化是系统对新物品进行推荐时可能遇到的一个问题,如果用户曾经喜欢的物品与新物品的相关度较高,那么推荐系统对该新物品的评分可能偏高,造成推荐结果不够准确。

2.2.2协同过滤方法

(1)协同过滤方法介绍

近年来,比较著名且使用范围较为广泛的一个推送方法是协同过滤推荐方法(Collaborative Filtering Recommendations,简称CF),根据数据分析对象的不同,可以被分为两种类型:基于物品的协同过滤算法(Item-Based CF),和基于用户的协同过滤算法(User-Based CF)。该方法不需要了解用户或者物品的大量信息,根据用户对物品的评分或其他行为(如收藏、购买)模式来为用户提供个性化的推荐。

基于物品的推送方法首先利用每位用户对各种物品的评价关系矩阵,挖掘不同物品之间的关联性,并且由上一步得到的相关系数矩阵,将关联性较高的未使用过的物品推送给用户。

剩余内容已隐藏,请支付后下载全文,论文总字数:16450字

相关图片展示:

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;