python基于物品协同过滤算法实现代码
作者:zhouwenyuan1015 发布时间:2021-06-23 21:56:16
标签:python,协同过滤
本次测试基于MovieLens数据集实现的基于物品的协同过滤,目前只是在小样本上实现,主要问题是计算太耗内存,后期代码继续优化与完善。
数据集说明:movies.dat中数据是用户对电影的评分。数据格式:UserID::MovieID::Rating::Timestamp。
代码
import pandas as pd
import numpy as np
import math
import os
import time
import datetime
os.chdir(r'f:\zxx\pthon_work\CF')
def loadData():
#读入movies.dat, rating.dat,tags.dat
#mnames=['movie_id','title','genres']
#movies=pd.read_table(r'.\data\movies.dat',sep='::',header=None,names=mnames)
rnames=['UserID','MovieID','Rating','Timestamp']
all_ratings=pd.read_table(r'.\data\ratings.dat',sep='::',header=None,names=rnames,nrows=300000)
#tnames=['UserID','MovieID','Tag','Timestamp']
#tags=pd.read_table(r'.\data\tags.dat',sep='::',header=None,names=tnames)
return all_ratings
#数据探索:rating
def data_alay(ratings):
"""rating nums10000054, 3,
示例 : 1 122 5 838985046
col:'UserID','MovieID','Rating','Timestamp'
"""
#一个用户只对一个电影打分一次
UR=ratings.groupby([ratings['UserID'],ratings['MovieID']])
len(UR.size)
#计算每部电影的平均打分,电影数10677
def avgRating(ratings):
movies_mean=ratings['Rating'].groupby(ratings['MovieID']).mean()#计算所有用户对电影X的平均打分
movies_id=movies_mean.index
movies_avg_rating=movies_mean.values
return movies_id,movies_avg_rating,movies_mean
#计算电影相似度矩阵相,即建立10677*10677矩阵
def calculatePC(ratings):
movies_id,movies_avg_rating,movies_mean=avgRating(ratings)
#pc_mat=np.eye(3)#建立电影相似度单位矩阵
pc_dic={}
top_movie=len(movies_id)
for i in range(0,top_movie):
for j in range(i+1,top_movie):
movieAID=movies_id[i]
movieBID=movies_id[j]
see_moviesA_user=ratings['UserID'][ratings['MovieID']==movieAID]
see_moviesB_user=ratings['UserID'][ratings['MovieID']==movieBID]
join_user=np.intersect1d(see_moviesA_user.values,see_moviesB_user.values)#同时给电影A、B评分的用户
movieA_avg=movies_mean[movieAID]
movieB_avg=movies_mean[movieBID]
key1=str(movieAID)+':'+str(movieBID)
key2=str(movieBID)+':'+str(movieAID)
value=twoMoviesPC(join_user,movieAID,movieBID,movieA_avg,movieB_avg,ratings)
pc_dic[key1]=value
pc_dic[key2]=value
#pc_mat[i][i+1]=twoMoviesPC(join_user,movieAID,movieBID,movieA_avg,movieB_avg,ratings)
#print ('---the %s, %d,%d:--movie %s--%s--pc is %f' % (key1,movieAID,movieBID,movieAID,movieBID,pc_dic[key1]))
return pc_dic
#计算电影A与电影B的相似度,皮尔森相似度=sum(A-A^)*sum(B-B^)/sqrt(sum[(A-A^)*(A-A^)]*sum[(B-B^)*(B-B^)])
def twoMoviesPC(join_user,movieAID,movieBID,movieA_avg,movieB_avg,ratings):
cent_AB_sum=0.0#相似度分子
centA_sum=0.0#分母
centB_sum=0.0#分母
movieAB_pc=0.0#电影A,B的相似度
count=0
for u in range(len(join_user)):
#print '---------',u
count=count+1
ratA=ratings['Rating'][ratings['UserID']==join_user[u]][ratings['MovieID']==movieAID].values[0]#用户给电影A评分
ratB=ratings['Rating'][ratings['UserID']==join_user[u]][ratings['MovieID']==movieBID].values[0]#用户给电影B评分
cent_AB=(ratA-movieA_avg)*(ratB-movieB_avg) #去均值中心化
centA_square=(ratA-movieA_avg)*(ratA-movieA_avg) #去均值平方
centB_square=(ratB-movieB_avg)*(ratB-movieB_avg)#去均值平方
cent_AB_sum=cent_AB_sum+cent_AB
centA_sum=centA_sum+centA_square
centB_sum=centB_sum+centB_square
if(centA_sum>0 and centB_sum>0 ):
movieAB_pc=cent_AB_sum/math.sqrt(centA_sum*centB_sum)
return movieAB_pc
"""
预测用户U对那些电影感兴趣。分三步,
1)用户U过去X天看过的电影。
2)提出用户U已看过的电影,根据用户U过去看过的电影,计算用户U对其他电影的打分.
3) 拉去打分最高的的电影给用户推荐。
预测用户U对电影C的打分。分三步:(先只做这个)
1)用户U过去X天看过的电影。
2)利用加权去中心化公式预测用户U对电影C的打分.
"""
#日期处理: -3天,然后转换为uinxtime
def timePro(last_rat_time,UserU):
lastDate= datetime.datetime.fromtimestamp(last_rat_time[UserU]) #unix转为日期
date_sub3=lastDate+datetime.timedelta(days=-3)#减去3天
unix_sub3=time.mktime(date_sub3.timetuple())#日期转为unix
return unix_sub3
#取用户最后一次评分前3天评估的电影进行预测
def getHisRat(ratings,last_rat_time,UserUID):
unix_sub3= timePro(last_rat_time,UserUID)
UserU_info=ratings[ratings['UserID']==UserUID][ratings['Timestamp']>unix_sub3]
return UserU_info
#预测用户U对电影C的打分
def hadSeenMovieByUser(UserUID,MovieA,ratings,pc_dic,movies_mean):
pre_rating=0.0
last_rat_time=ratings['Timestamp'].groupby([ratings['UserID']]).max()#获取用户U最近一次评分日期
UserU_info= getHisRat(ratings,last_rat_time,UserUID)#获取用户U过去看过的电影
flag=0#表示新电影,用户U是否给电影A打过分
wmv=0.0#相似度*mv平均打分去均值后之和
w=0.0#相似度之和
movie_userU=UserU_info['MovieID'].values#当前用户看过的电影
if MovieA in movie_userU:
flag=1
pre_rating=UserU_info['Rating'][UserU_info['MovieID']==MovieA].values
else:
for mv in movie_userU:
key=str(mv)+':'+str(MovieA)
rat_U_mv=UserU_info['Rating'][UserU_info['MovieID']==mv][UserU_info['UserID']==UserUID].values#用户U对看过电影mv的打分
wmv=(wmv+pc_dic[key]*(rat_U_mv-movies_mean[mv]))#相似度*mv平均打分去均值后之和
w=(w+pc_dic[key])#看过电影与新电影相似度之和
#print ('---have seen mv %d with new mv %d,%f,%f'%(mv,MovieA,wmv,w))
pre_rating=(movies_mean[MovieA]+wmv/w)
print ('-flag:%d---User:%d rating movie:%d with %f score----' %(flag,UserUID,MovieA,pre_rating))
return pre_rating,flag
if __name__=='__main__':
all_ratings=loadData()
movie_num=100#控制电影数,只针对电影ID在该范围的数据进行计算,否则数据量太大
ratings=all_ratings[all_ratings['MovieID']<=movie_num]
movies_id,movies_avg_rating,movies_mean=avgRating(ratings)
pc_dic=calculatePC(ratings)#电影相似度矩阵
#预测
UserUID=10#当前数据集只看过电影4,7,
MovieA=6
pre_rating,flag=hadSeenMovieByUser(UserUID,MovieA,ratings,pc_dic,movies_mean)
"-----------------测试ID提取------------------"
#选取UserUID
ratings.head(10)#从前10行中随机选取一个用户ID,例如:UserID=10
#查看该用户在当前数据集中看过那些电影,方便选取新电影(防止选择的是用户已经看过的电影)
ratings[ratings['UserID']==10]#该用户在当前数据集中,只看过电影MovieID in(4,7),则可选择不是4,7的电影ID进行预测,例如6.
运行结果:
-flag:0---User:10 rating movie:6 with 4.115996 score----
来源:https://blog.csdn.net/zhouwenyuan1015/article/details/72584727
0
投稿
猜你喜欢
- 如何用ASP发送HTML格式的邮件?HTML格式的邮件可以把网页上的所有元素,包括文字和图片集成保存在一个文件中,阅读和链接非常便捷,请问在
- 创建类Python 类使用 class 关键字来创建。简单的类的声明可以是关键字后紧跟类名:class ClassName(bases):&
- 测试驱动开发(TDD)是一个迭代的开发周期,强调编写实际代码之前编写自动化测试。这个过程很简单: 先编写
- 在函数参数中乱用表达式作为默认值Python允许给一个函数的某个参数设置默认值以使该参数成为一个可选参数。尽管这是这门语言很棒的一个功能,但
- asp分页,是学习使用asp编程经常遇到的问题,也算是一个经典的问题。本文介绍了一个asp分页源代码例子,希望对初学者有所帮助,本程序文件名
- 定义和用法fopen() 函数打开文件或者 URL。如果打开失败,本函数返回 FALSE。语法fopen(filename,mode,inc
- radians()方法把角度转化为弧度角x。语法以下是radians()方法的语法:radians(x)注意:此函数是无法直接访
- 前沿最近开始学习python了,由于要简单处理一下图片,奈何能C++力太差,openCV上手有点难,想学习一下py简单的处理一下图片就好了。
- set oSQLServer =server.createobject("SQLDMO.SQLServer")oSQLS
- 默认值可以很方便众所周知,在Python中如果访问字典中不存在的键,会引发KeyError异常(JavaScript中如果对象中不存在某个属
- 今天在写PHP程序的时候总是出现这样的错误:Parse error: syntax error, unexpected end of fil
- 相对或者绝对import 更多的复杂部分已经从python2.5以来实现:导入一个模块可以指定使用绝对或者包相对的导入。这个计划将移动到使绝
- SQL*Plus system/manager 2、显示当前连接用户 SQL> show user 3、查看系统拥有哪些用户 SQL&
- 非原创:英文版混乱的标记语言XHTML2/HTML5源文地址:漫画英文版源文地址感谢我的同事Kevin Jaw的翻译。他的博客地址是:Kev
- 1.global关键字默认情况下,在局部作用域对全局变量只能进行:读取,修改内部元素(可变类型),无法对全局变量进行重新赋值读取:CITY=
- 01. 应用场景及定义方式应用场景在实际开发中,对象 的 某些属性或方法 可能只希望 在对象的内部被使用,而 不希望在外部被访问到私有属性
- 在网页设计发展到一定阶段的时候就必然会和其他学科或领域只是产生交汇和共鸣,在阅读《超越CSS:web设计艺术精髓》这本书的时候,发现原来we
- 一、前言上次写了一个俄罗斯方块,感觉好像大家都看懂了,这次就更新一个植物大战僵尸吧二、引入模块import pygameimport ran
- 方法一:1、将ORACLE软件拷贝到硬盘。 2、将 硬盘目录文件\stage\Components\oracle.swd.jre
- 与前面一样我们会用fso来对文件或文件夹进行创建与删除操作了,其实fso有强大的功能但非常危险的哦,下面我们不来看看删除实例吧,在这些例子,