Movielens 1Muci数据集怎么用用R进行协作性过滤前是不是要进行重构，怎么重构

风水堪舆学 | 网络营销 | 住宅风水 | 英文歌曲 | Adobe After Effects | 电脑配置 | 书籍改编电影 | 下载 | Legion | 网络推广 | 动画制作 | 赛事 | PLC | 小说创作 | 虚拟专用服务器 | 成语 | 家庭 | 单反相机 | 电视节目 | 投影机 | 面相 | 香港购物 | 配音 | 文具 | 二次元 | 影视 | 固态硬盘ssd | 虚拟机 | 跆拳道 | r（编程语言） | 秦时明月之天行九歌 | 使命召唤 | 网盘 | 地图 | 琅琊榜（电视剧） | 手机内存 | 角色扮演 | 华硕 | 百度输入法 | 盗墓笔记（小说） | 营销策划 | 化妆品 | Windows | ip地址 | 装修设计 | 齐内丁·齐达内 | 动画电影 | 中国中央电视台 | 罗兰 | 网站优化 | 斗鱼直播 | 冷知识 | 张帅 | 任天堂 | 摄影师 | 三菱商事 | 迅雷（软件） | 计算机病毒 | amd | 屏幕 | 微单相机 | 电学 | qq浏览器 | MacOS | 联赛 | snh48 | 芯片（集成电路） | 后宫·甄嬛传（书籍） | 植物辨识 | 运动 | 大一 | 美容 | 双色球 | 蓝牙音箱 | 楼盘 | 电脑电源 | 采暖 | 显卡驱动 | 体育赛事 | thinkpad | 离婚 | 武侠小说 | 索尼笔记本 | 中国足球协会超级联赛（csl） | youtube | 王力宏（人物） | 外星人 | 努比亚（手机品牌） | 海贼王 | 移动电源 | 完美世界（游戏） | 摩托车 | 编辑器 | 低音炮 | 收益 | 海关 | 徐波 | akb48 | 互联网创业 | 张璐 | 男性 | 性价比 | MacBook Air | 新疆维吾尔自治区 | 插座 | 外汇平台 | 华为Mate30 | 羽毛球技术 | 腾讯 QQ | 蓝屏 | 字幕 | 免费软件 | 电脑故障 | 女生 | 周星驰（人物） | 足球欧洲杯 | pdf | macbook | 直播 | 生活经历 | 骁龙处理器 | 主题曲 | 户外运动 | CPU | 娱乐圈 | 初恋 | 家居 | 流氓软件 | 名言 | 中国足球 | 近视眼 | acg | 一级方程式赛车（f1） | 小品 | 网站运营 | 英格兰足球超级联赛 | 一体机 | 人肉搜索 | 日本电影 | 系统软件 | 人生 | 流星花园 | 电钢琴 | 分辨率 | 迅雷 | 机械设计 | 古典音乐 | 液晶电视 | 睡眠 | 大片 | 资产 | Html/Css | ansys | 天蝎座 | 对联 | 大二 | 吉他学习 | 实习 | uc浏览器 | 计算机科学 | 新华社 | 脱毛 | 视力 | 乐视超级电视 | 大学生活 | 开关电源 | 平面设计 | 音乐版权 | iPhone 11 Pro | 面膜 | 鞠婧祎 | 胡歌（演员） | 郭富城 | 语言 | 赵丽颖（演员） | 意大利 | 电路设计 | 情侣 | NBA篮球 | 蔡徐坤 | 豆瓣电影 | 社交软件 | 微信开发 | 足球彩票 | 电工 | 手机摄像头 | 用户界面设计师 | 华语流行音乐 | 网卡 | 易烊千玺 | 笛子 | 日语学习 | 日语歌曲 | 歌手 | 张子枫 | 搏击项目 | 谭松韵 | 快捷键 | O2O | 移民 |

你的位置：网站首页 >> 频道首页 >>编程语言 >>Movielens 1Muci数据集怎么用用R进行协作性过滤前是不是要进行重构，怎么重构

Movielens 1Muci数据集怎么用用R进行协作性过滤前是不是要进行重构，怎么重构

来源：蜘蛛抓取(WebSpider) 时间：2015-01-22 20:33 标签： uci数据集怎么用

您所在位置： &
&nbsp&&nbsp&nbsp&&nbsp
基于数据同化的地表温度时间序列重构.pdf63页
本文档一共被下载：
次 ,您可免费全文在线阅读后下载本文档
文档加载中...广告还剩秒
需要金币：200 &&
你可能关注的文档：
··········
··········
原创性声明
本人声明，所呈交的学位论文是本人在导师指导下进行的研究工
作及取得的研究成果。尽我所知，除了论文中特别加以标注和致谢的
地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包
含为获得中南大学或其他单位的学位或证书而使用过的材料。与我共
同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。
作者签名：
学位论文版权使用授权书
本人了解中南大学有关保留、使用学位论文的规定，即：学校有
权保留学位论文并根据国家或湖南省有关部门规定送交学位论文，允
许学位论文被查阅和借阅；学校可以公布学位论文的全部或部分内容，
可以采用复印、缩印或其它手段保存学位论文。同时授权中国科学技
术信息研究所将本学位论文收录到《中国学位论文全文数据库》，并
通过网络向社会公众提供信息服务。
作者签名：
导师签撕日期：职年―工月互日
基于数据同化的地表温度时间序列重构
摘要：由于云、气溶胶、太阳高度角和地物双向性反射等的影响，造
成了遥感反演的地表能量参数在时间、空间上的缺失，会严重影响陆
面过程模拟的精度。时间序列数据重构的主要目的，是利用多种统计
和数值分析方法，模拟参数的季节／年度变化规律，从而插补缺失观
测值，优化时间序列数据，为相关研究提供更加完备的数据基础。传
统的地表能量平衡参数时间序列重构的方法主要包括平均昼夜变化
法、非线性回归方法、查表法、动态线性回归方法和人工神经网络方
法等。针对当前数据重构方法中存在的精度不稳定、效果差
正在加载中，请稍后...您所在位置： &
&nbsp&&nbsp&nbsp&&nbsp
基于用户情景模糊聚类的协同推荐研究及应用.pdf60页
本文档一共被下载：
次 ,您可免费全文在线阅读后下载本文档
文档加载中...广告还剩秒
需要金币：220 &&
你可能关注的文档：
··········
··········
基于用户情景模糊聚类的协同推荐
研究及应用
重庆大学硕士学位论文
(学术学位)
学生姓名 :张
指导老师 :李
专业 : 计算机系统结构
学科门类 :工
学重庆大学计算机学院
二 O 一三年四月
Research and Application of Collaborative
Recommendation Algorithm based on User
Context Fuzzy Clustering
A Thesis Submitted to Chongqing Universityin Partial Fulfillment of Requirement for theMaster’s Degree of EngineeringBy
Supervised by Associate Professor Li Hua
Specialty: Computer System Architecture
College of Computer Science ofChongqing University, Chongqing, China
April 2013
重庆大学硕士学位论文
随着互联网的普及和电子商务的蓬勃发展, 大量的数据资源充斥在网络之中,
人们不得不花费较长的时间选择自己喜欢的资源。个性化推荐系统的出现较好地
解决了这一问题 , 成为当今越来越受关注的研究领域。目前 , 一些新的推荐方法
和推荐技术相继出现。比较常用的推荐算法有基于关联规则的推荐算法、基于内
容的推荐算法、协同过滤推荐算法以及混合推荐算法。
协同过滤推荐技术是个性化推荐系统中应用最广泛且最成熟的推荐技术。它
通过分析用户的历史行为数据找出目标用户 ( 或项目 ) 的最近邻居集 , 进而参考
邻居集合的喜好来预测目标用户的喜好 , 实现推荐。但其仍存在许多问题需要解
决 , 主要有数据稀疏性、冷启动和算法扩展性差的问题。此外 , 还有新用户以及
情景缺失等问题。
对此 ,本文提出一种基于用户情景模糊聚类的协同推荐算法。该
正在加载中，请稍后...您所在位置： &
&nbsp&&nbsp&nbsp&&nbsp
基于不同数据集的协作过滤算法评测.pdf5页
本文档一共被下载：
次 ,本文档已强制全文免费阅读，若需下载请自行甄别文档质量。
文档加载中...广告还剩秒
需要金币：100 &&
基于不同数据集的协作过滤算法评测.pdf
你可能关注的文档：
··········
··········
― 00-0054 清华大学学报
自然科学版 2009年第49卷第4期 34／40 CN 11―2223／N JTsinghuaUniv Sci＆Teeh ，2009，Vo1．49，No．4 59O一594 基于不同数据集的协作过滤算法评测～董丽，邢春晓。，王克宏 1．清华大学计算机科学与技术系，北京．清华大学图书馆，北京．清华大学信息技术研究院，北京 100084 摘要：针对协作过滤算法评测中普遍采用单一数据集，该协作过滤技术n在 1992年首次提出之后，在个
文将传统的User―based 近邻数为 20 、Item～based、Item
性化推荐系统中得以广泛应用。协作过滤的基本思
average、Itemuseraverage和 SlopeOne5种算法应用于想是根据用户兴趣的相似性来推荐资源，通过比较
MovieLens和Book―Crossing两种数据分布特征不同的数据代表不同用户的用户描述文件的异同即比较用户
集。结果显示，在Movielens这种评分值相对比较稠密的数间的兴趣相似度，根据和目标用户具有相似兴趣的
据集上，SlopeOne算法的预测精度最好；而在评分值相对比较稀疏的Book～Crossing数据集上，Item―based算法的预其他用户和目标用户具有相似兴趣的用户被称为
测精度最好，SlopeOne的预测精度最差。选择算法应根据目标用户的 “邻居” 的观点向用户推荐信息资源。
用户和资源分布具体情况确定。协作过滤技术的优点是能应用于那些不能直接
关键词：协作过滤；个性化推荐；算法评测获取特征的资源，还能为用户发现更多新的兴趣。但中图分类号：TP391．4；TP311．13 文献标识码：A 是也存在一些问题，就是随着系统用户和资源的增
文章编号：i000――059005 多，系统的性能会越来越低，在数学模型上表现为数据稀疏性和可扩展性。目前，有关协
正在加载中，请稍后...MovieLens 1M数据集
本文所属图书&>&
还在苦苦寻觅用python控制、处理、整理、分析结构化数据的完整课程？《利用python进行数据分析》含有大量的实践案例，你将学会如何利用各种python库（包括numpy、pandas、matplotlib以及ipython等）高效地解决各&&
GroupLens Research（http://www.grouplens.org/node/73）采集了一组从20世纪90年末到21世纪初由MovieLens用户提供的电影评分数据。这些数据中包括电影评分、电影元数据（风格类型和年代）以及关于用户的人口统计学数据（年龄、邮编、性别和职业等）。基于机器学习算法的推荐系统一般都会对此类数据感兴趣。虽然我不会在本书中详细介绍机器学习技术，但我会告诉你如何对这种数据进行切片切块以满足实际需求。
MovieLens 1M数据集含有来自6000名用户对4000部电影的100万条评分数据。它分为三个表：评分、用户信息和电影信息。将该数据从zip文件中解压出来之后，可以通过pandas.read_table将各个表分别读到一个pandas DataFrame对象中：
import pandas as pd
unames = ['user_id', 'gender', 'age', 'occupation', 'zip']
users = pd.read_table('ml-1m/users.dat', sep='::', header=None, names=unames)
rnames = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_table('ml-1m/ratings.dat', sep='::', header=None, names=rnames)
mnames = ['movie_id', 'title', 'genres']
movies = pd.read_table('ml-1m/movies.dat', sep='::', header=None, names=mnames)
利用的切片语法，通过查看每个DataFrame的前几行即可验证数据加载工作是否一切顺利：
In [334]: users[:5]
&& user_id gender& age& occupation&&& zip
0&&&&&&& 1&&&&& F&&& 1&&&&&&&&& 10& 48067
1&&&&&&& 2&&&&& M&& 56&&&&&&&&& 16& 70072
2&&&&&&& 3&&&&& M&& 25&&&&&&&&& 15& 55117
3&&&&&&& 4&&&&& M&& 45&&&&&&&&&& 7& 02460
4&&&&&&& 5&&&&& M&& 25&&&&&&&&& 20& 55455
In [335]: ratings[:5]
&& user_id& movie_id& rating& timestamp
0&&&&&&& 1&&&&& 1193&&&&&& 5&
1&&&&&&& 1&&&&&& 661&&&&&& 3&
2&&&&&&& 1&&&&&& 914&&&&&& 3&
3&&&&&&& 1&&&&& 3408&&&&&& 4&
4&&&&&&& 1&&&&& 2355&&&&&& 5&
In [336]: movies[:5]
&& movie_id&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& title&&&&&&&&&&&&&&&&&&&&&&& genres
0&&&&&&&& 1&&&&&&&&&&&&&&&&&&& Toy Story (1995)&& Animation|Children's|Comedy
1&&&&&&&& 2&&&&&&&&&&&&&&&&&&&&& Jumanji (1995)& Adventure|Children's|Fantasy
2&&&&&&&& 3&&&&&&&&&&&& Grumpier Old Men (1995)&&&&&&&&&&&&&&& Comedy|Romance
3&&&&&&&& 4&&&&&&&&&&& Waiting to Exhale (1995)&&&&&&&&&&&&&&&&& Comedy|Drama
4&&&&&&&& 5& Father of the Bride Part II (1995)&&&&&&&&&&&&&&&&&&&&&&& Comedy
In [337]: ratings
&class 'pandas.core.frame.DataFrame'&
Int64Index: 1000209 entries, 0 to 1000208
Data columns:
user_id&&&&& 1000209& non-null values
movie_id&&&& 1000209& non-null values
rating&&&&&& 1000209& non-null values
timestamp&&& 1000209& non-null values
dtypes: int64(4)
注意，其中的年龄和职业是以编码形式给出的，它们的具体含义请参考该数据集的README文件。分析散布在三个表中的数据可不是一件轻松的事情。假设我们想要根据性别和年龄计算某部电影的平均得分，如果将所有数据都合并到一个表中的话问题就简单多了。我们先用pandas的merge函数将ratings跟users合并到一起，然后再将movies也合并进去。pandas会根据列名的重叠情况推断出哪些列是合并（或连接）键：
In [338]: data = pd.merge(pd.merge(ratings, users), movies)
In [339]: data
&class 'pandas.core.frame.DataFrame'&
Int64Index: 1000209 entries, 0 to 1000208
Data columns:
user_id&&&&&& 1000209& non-null values
movie_id&&&&& 1000209& non-null values
rating&&&&&&& 1000209& non-null values
timestamp&&&& 1000209& non-null values
gender&&&&&&& 1000209& non-null values
age&&&&&&&&&& 1000209& non-null values
occupation&&& 1000209& non-null values
zip&&&&&&&&&& 1000209& non-null values
title&&&&&&&& 1000209& non-null values
genres&&&&&&& 1000209& non-null values
dtypes: int64(6), object(4)
In [340]: data.ix[0]
user_id&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& 1
movie_id&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& 1
rating&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& 5
timestamp&&&&&&&&&&&&&&&&&&&&&&
gender&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& F
age&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& 1
occupation&&&&&&&&&&&&&&&&&&&&&&&&&&&& 10
zip&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& 48067
title&&&&&&&&&&&&&&&&&&& Toy Story (1995)
genres&&&&&&& Animation|Children's|Comedy
现在，只要稍微熟悉一下pandas，就能轻松地根据任意个用户或电影属性对评分数据进行聚合操作了。为了按性别计算每部电影的平均得分，我们可以使用pivot_table方法：
In [341]: mean_ratings = data.pivot_table('rating', rows='title',
&& ....:&cols='gender', aggfunc='mean')
In [342]: mean_ratings[:5]
gender&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& F&&&&&&&& M
$1,000,000 Duck (1971)&&&&&&&& 3..761905
'Night Mother (1986)&&&&&&&&&& 3..352941
'Til There Was You (1997)&&&&& 2..733333
'burbs, The (1989)&&&&&&&&&&&& 2..962085
...And Justice for All (1979)& 3..689024
该操作产生了另一个DataFrame，其内容为电影平均得分，行标为电影名称，列标为性别。现在，我打算过滤掉评分数据不够250条的电影（随便选的一个数字）。为了达到这个目的，我先对title进行分组，然后利用size()得到一个含有各电影分组大小的Series对象：
In [343]: ratings_by_title = data.groupby('title').size()
In [344]: ratings_by_title[:10]&
Out[344]:&
$1,000,000 Duck (1971)&&&&&&&&&&&&&&& 37
'Night Mother (1986)&&&&&&&&&&&&&&&&& 70
'Til There Was You (1997)&&&&&&&&&&&& 52
'burbs, The (1989)&&&&&&&&&&&&&&&&&& 303
...And Justice for All (1979)&&&&&&& 199
1-900 (1994)&&&&&&&&&&&&&&&&&&&&&&&&&& 2
10 Things I Hate About You (1999)&&& 700
101 Dalmatians (1961)&&&&&&&&&&&&&&& 565
101 Dalmatians (1996)&&&&&&&&&&&&&&& 364
12 Angry Men (1957)&&&&&&&&&&&&&&&&& 616
In [345]: active_titles = ratings_by_title.index[ratings_by_title &= 250]
In [346]: active_titles
Index(['burbs, The (1989), 10 Things I Hate About You (1999),
&&&&&& 101 Dalmatians (1961), ..., Young Sherlock Holmes (1985),
&&&&&& Zero Effect (1998), eXistenZ (1999)], dtype=object)
该索引中含有评分数据大于250条的电影名称，然后我们就可以据此从前面的mean_ratings中选取所需的行了：
In [347]: mean_ratings = mean_ratings.ix[active_titles]
In [348]: mean_ratings
&class 'pandas.core.frame.DataFrame'&
Index: 1216 entries, 'burbs, The (1989) to eXistenZ (1999)
Data columns:
F&&& 1216& non-null values
M&&& 1216& non-null values
dtypes: float64(2)
为了了解女性观众最喜欢的电影，我们可以对F列降序排列：
In [350]: top_female_ratings = mean_ratings.sort_index(by='F', ascending=False)
In [351]: top_female_ratings[:10]&
Out[351]:&
gender&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& F&&&&&&&& M
Close Shave, A (1995)&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& 4..473795
Wrong Trousers, The (1993)&&&&&&&&&&&&&&&&&&&&&&&&&&&&& 4..478261
Sunset Blvd. (a.k.a. Sunset Boulevard) (1950)&&&&&&&&&& 4..464589
Wallace & Gromit: The Best of Aardman Animation (1996)& 4..385075
Schindler's List (1993)&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& 4..491415
Shawshank Redemption, The (1994)&&&&&&&&&&&&&&&&&&&&&&& 4..560625
Grand Day Out, A (1992)&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& 4..293255
To Kill a Mockingbird (1962)&&&&&&&&&&&&&&&&&&&&&&&&&&& 4..372611
Creature Comforts (1990)&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& 4..272277
Usual Suspects, The (1995)&&&&&&&&&&&&&&&&&&&&&&&&&&&&& 4..518248
您对本文章有什么意见或着疑问吗？请到您的关注和建议是我们前行的参考和动力&&
您的浏览器不支持嵌入式框架，或者当前配置为不显示嵌入式框架。扫扫二维码，随身浏览文档
手机或平板扫扫即可继续访问
利用S_G滤波进行MODIS_EVI时间序列数据重构
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由：
将文档分享至：
分享完整地址
文档地址：
粘贴到BBS或博客
flash地址：
支持嵌入FLASH地址的网站使用
html代码：
&embed src='/DocinViewer-4.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布，请您等待！
3秒自动关闭窗口

Movielens 1Muci数据集怎么用用R进行协作性过滤前是不是要进行重构，怎么重构

我要回帖

更多关于 uci数据集怎么用的文章

随机推荐

Movielens 1Muci数据集怎么用用R进行协作性过滤前是不是要进行重构，怎么重构

我要回帖

更多关于 uci数据集怎么用 的文章

随机推荐

更多关于 uci数据集怎么用的文章