基于MapReduce与项目分类的协同过滤算法

针对传统协同过滤算法中存在的数据稀疏性和系统可扩展性问题,提出一种新的协同过滤算法。根据用户对不同项目的评价信息得出项目评分矩阵,利用朴素贝叶斯分类器对项目进行分类,通过修正的余弦相似度计算方法在相同类中寻找项目最近邻集合。结合Hadoop平台下的MapReduce并行计算框架进行数据分布式处理,最终形成评分预测列表进行项目推荐。实验结果表明,与基于用户分类的协同过滤算法和基于项目分类的协同过滤算法相比,该算法能有效解决因数据稀疏导致预测精度较低的问题,具有较高的推荐准确性,并且通过算法并行计算提高了系统运行效率和可扩展性。...

Full description

Saved in:
Bibliographic Details
Published in计算机工程 Vol. 42; no. 7; pp. 194 - 198
Main Author 程曦 陈军
Format Journal Article
LanguageChinese
Published 武汉大学深圳研究院,广东深圳518063 2016
武汉大学国家多媒体软件工程技术研究中心,武汉,430072%武汉大学国家多媒体软件工程技术研究中心,武汉430072
Subjects
Online AccessGet full text
ISSN1000-3428
DOI10.3969/j.issn.1000-3428.2016.07.032

Cover

More Information
Summary:针对传统协同过滤算法中存在的数据稀疏性和系统可扩展性问题,提出一种新的协同过滤算法。根据用户对不同项目的评价信息得出项目评分矩阵,利用朴素贝叶斯分类器对项目进行分类,通过修正的余弦相似度计算方法在相同类中寻找项目最近邻集合。结合Hadoop平台下的MapReduce并行计算框架进行数据分布式处理,最终形成评分预测列表进行项目推荐。实验结果表明,与基于用户分类的协同过滤算法和基于项目分类的协同过滤算法相比,该算法能有效解决因数据稀疏导致预测精度较低的问题,具有较高的推荐准确性,并且通过算法并行计算提高了系统运行效率和可扩展性。
Bibliography:31-1289/TP
collaborative filtering; item classification; similarity computation; parallel computation ; distributed processing ; rating prediction
Aiming at the problem of data sparseness and system scalability in traditional collaborative filtering algorithms ,this paper proposed a new collaborative filtering algorithm. This algorithm firstly obtains the item rating matrix according to users' rating on different items. Secondly, it utilizes naive Bayesian classifier to classify the items, and then searches for the items' nearest-neighbor sets in the same class by the modified cosine similarity computation method. At the same time,it uses the MapReduce parallel computation framework on Hadoop to implement distributed data processing. Finally,it forms a rating prediction list and makes recommendations. Experimental results show that the algorithm not only effectively solves the problem of low prediction accuracy due to data sparseness, but also improves the accuracy of recommendation compared with collaborative
ISSN:1000-3428
DOI:10.3969/j.issn.1000-3428.2016.07.032