Movielens 1Muci数据集怎么用用R进行协作性过滤前是不是要进行重构,怎么重构

您所在位置: &
&nbsp&&nbsp&nbsp&&nbsp
基于数据同化的地表温度时间序列重构.pdf63页
本文档一共被下载:
次 ,您可免费全文在线阅读后下载本文档
文档加载中...广告还剩秒
需要金币:200 &&
你可能关注的文档:
··········
··········
原创性声明
本人声明,所呈交的学位论文是本人在导师指导下进行的研究工
作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢的
地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包
含为获得中南大学或其他单位的学位或证书而使用过的材料。与我共
同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。
作者签名:
学位论文版权使用授权书
本人了解中南大学有关保留、使用学位论文的规定,即:学校有
权保留学位论文并根据国家或湖南省有关部门规定送交学位论文,允
许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,
可以采用复印、缩印或其它手段保存学位论文。同时授权中国科学技
术信息研究所将本学位论文收录到《中国学位论文全文数据库》,并
通过网络向社会公众提供信息服务。
作者签名:
导师签撕日期: 职年―工月互日
基于数据同化的地表温度时间序列重构
摘要:由于云、气溶胶、太阳高度角和地物双向性反射等的影响,造
成了遥感反演的地表能量参数在时间、空间上的缺失,会严重影响陆
面过程模拟的精度。时间序列数据重构的主要目的,是利用多种统计
和数值分析方法,模拟参数的季节/年度变化规律,从而插补缺失观
测值,优化时间序列数据,为相关研究提供更加完备的数据基础。传
统的地表能量平衡参数时间序列重构的方法主要包括平均昼夜变化
法、非线性回归方法、查表法、动态线性回归方法和人工神经网络方
法等。针对当前数据重构方法中存在的精度不稳定、效果差
正在加载中,请稍后...您所在位置: &
&nbsp&&nbsp&nbsp&&nbsp
基于用户情景模糊聚类的协同推荐研究及应用.pdf60页
本文档一共被下载:
次 ,您可免费全文在线阅读后下载本文档
文档加载中...广告还剩秒
需要金币:220 &&
你可能关注的文档:
··········
··········
基 于用户 情景 模糊聚 类的 协同推 荐
研 究及应 用
重庆大学硕士学位论文
(学术学位)
学 生姓名 :张
指 导老师 :李
专 业 : 计算机 系统结 构
学 科门类 :工
学重庆大学计算机学院
二 O 一 三年 四月
Research and Application of Collaborative
Recommendation Algorithm based on User
Context Fuzzy Clustering
A Thesis Submitted to Chongqing Universityin Partial Fulfillment of Requirement for theMaster’s Degree of EngineeringBy
Supervised by Associate Professor Li Hua
Specialty: Computer System Architecture
College of Computer Science ofChongqing University, Chongqing, China
April 2013
重庆大 学硕 士学 位论 文
随着互联网的普及和电子商务的蓬勃发展, 大量的数据资源充斥在网络之中,
人 们 不 得 不 花 费 较 长 的 时 间 选 择 自 己 喜 欢 的 资 源 。 个 性 化 推 荐 系 统 的 出 现 较 好 地
解 决 了 这 一 问 题 , 成 为 当 今 越 来 越 受 关 注 的 研 究 领 域 。 目 前 , 一 些 新 的 推 荐 方 法
和 推 荐 技 术 相 继 出 现 。 比 较 常 用 的 推 荐 算 法 有 基 于 关 联 规 则 的 推 荐 算 法 、 基 于 内
容的推荐算法、协同过滤推荐算法以及混合推荐算法。
协 同 过 滤 推 荐 技 术 是 个 性 化 推 荐 系 统 中 应用 最 广 泛 且 最 成 熟 的 推 荐 技 术 。 它
通过 分 析 用 户 的 历 史 行 为 数 据 找 出 目 标 用 户 ( 或 项 目 ) 的 最 近 邻 居 集 , 进 而 参 考
邻 居 集 合 的 喜 好 来 预 测 目 标 用 户 的 喜 好 , 实 现 推 荐 。 但 其 仍 存在 许 多 问 题 需要解
决 , 主要有 数据 稀疏 性、 冷启动 和 算 法 扩 展 性 差 的问题 。 此 外 , 还 有 新 用 户 以及
情景缺失等问题。
对此 ,本文 提 出 一 种 基 于 用 户 情 景 模 糊 聚 类 的 协 同 推 荐 算 法 。 该
正在加载中,请稍后...您所在位置: &
&nbsp&&nbsp&nbsp&&nbsp
基于不同数据集的协作过滤算法评测.pdf5页
本文档一共被下载:
次 ,本文档已强制全文免费阅读,若需下载请自行甄别文档质量。
文档加载中...广告还剩秒
需要金币:100 &&
基于不同数据集的协作过滤算法评测.pdf
你可能关注的文档:
··········
··········
― 00-0054 清华大学学报
自然科学版 2009年 第49卷 第4期 34/40 CN 11―2223/N JTsinghuaUniv Sci&Teeh ,2009,Vo1.49,No.4 59O一594 基于不同数据集的协作过滤算法评测 ~ 董 丽 , 邢春晓。, 王克宏 1.清华大学计算机科学与技术系,北京 .清华大学 图书馆,北京 .清华大学 信息技术研究院,北京 100084 摘 要:针对协作过滤算法评测中普遍采用单一数据集,该 协作过滤技术n在 1992年首次提出之后,在个
文将传统 的User―based 近邻数为 20 、Item~based、Item
性化推荐系统中得以广泛应用。协作过滤的基本思
average、Itemuseraverage和 SlopeOne5种算法应用于 想是根据用户兴趣的相似性来推荐资源,通过比较
MovieLens和Book―Crossing两种数据分布特征不同的数据 代表不同用户的用户描述文件的异同 即比较用户
集。结果显示,在Movielens这种评分值相对比较稠密的数 间的兴趣相似度 ,根据和 目标用户具有相似兴趣的
据集上,SlopeOne算法的预测精度最好;而在评分值相对 比较稀疏的Book~Crossing数据集上,Item―based算法的预 其他用户 和 目标用户具有相似兴趣的用户被称为
测精度最好,SlopeOne的预测精度最差。选择算法应根据 目标用户的 “邻居” 的观点向用户推荐信息资源。
用户和资源分布具体情况确定。 协作过滤技术的优点是能应用于那些不能直接
关键词:协作过滤;个性化推荐;算法评测 获取特征的资源 ,还能为用户发现更多新的兴趣 。但 中图分类号:TP391.4;TP311.13 文献标识码:A 是也存在一些 问题,就是随着系统用户和资源的增
文章编号:i000――059005 多,系统的性能会越来越低,在数学模型上表现为数 据稀疏性和可扩展性 。目前,有关协
正在加载中,请稍后...MovieLens 1M数据集
本文所属图书&>&
还在苦苦寻觅用python控制、处理、整理、分析结构化数据的完整课程?《利用python进行数据分析》含有大量的实践案例,你将学会如何利用各种python库(包括numpy、pandas、matplotlib以及ipython等)高效地解决各&&
GroupLens Research(http://www.grouplens.org/node/73)采集了一组从20世纪90年末到21世纪初由MovieLens用户提供的电影评分数据。这些数据中包括电影评分、电影元数据(风格类型和年代)以及关于用户的人口统计学数据(年龄、邮编、性别和职业等)。基于机器学习算法的推荐系统一般都会对此类数据感兴趣。虽然我不会在本书中详细介绍机器学习技术,但我会告诉你如何对这种数据进行切片切块以满足实际需求。
MovieLens 1M数据集含有来自6000名用户对4000部电影的100万条评分数据。它分为三个表:评分、用户信息和电影信息。将该数据从zip文件中解压出来之后,可以通过pandas.read_table将各个表分别读到一个pandas DataFrame对象中:
import pandas as pd
unames = ['user_id', 'gender', 'age', 'occupation', 'zip']
users = pd.read_table('ml-1m/users.dat', sep='::', header=None, names=unames)
rnames = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_table('ml-1m/ratings.dat', sep='::', header=None, names=rnames)
mnames = ['movie_id', 'title', 'genres']
movies = pd.read_table('ml-1m/movies.dat', sep='::', header=None, names=mnames)
利用的切片语法,通过查看每个DataFrame的前几行即可验证数据加载工作是否一切顺利:
In [334]: users[:5]
&& user_id gender& age& occupation&&& zip
0&&&&&&& 1&&&&& F&&& 1&&&&&&&&& 10& 48067
1&&&&&&& 2&&&&& M&& 56&&&&&&&&& 16& 70072
2&&&&&&& 3&&&&& M&& 25&&&&&&&&& 15& 55117
3&&&&&&& 4&&&&& M&& 45&&&&&&&&&& 7& 02460
4&&&&&&& 5&&&&& M&& 25&&&&&&&&& 20& 55455
In [335]: ratings[:5]
&& user_id& movie_id& rating& timestamp
0&&&&&&& 1&&&&& 1193&&&&&& 5&
1&&&&&&& 1&&&&&& 661&&&&&& 3&
2&&&&&&& 1&&&&&& 914&&&&&& 3&
3&&&&&&& 1&&&&& 3408&&&&&& 4&
4&&&&&&& 1&&&&& 2355&&&&&& 5&
In [336]: movies[:5]
&& movie_id&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& title&&&&&&&&&&&&&&&&&&&&&&& genres
0&&&&&&&& 1&&&&&&&&&&&&&&&&&&& Toy Story (1995)&& Animation|Children's|Comedy
1&&&&&&&& 2&&&&&&&&&&&&&&&&&&&&& Jumanji (1995)& Adventure|Children's|Fantasy
2&&&&&&&& 3&&&&&&&&&&&& Grumpier Old Men (1995)&&&&&&&&&&&&&&& Comedy|Romance
3&&&&&&&& 4&&&&&&&&&&& Waiting to Exhale (1995)&&&&&&&&&&&&&&&&& Comedy|Drama
4&&&&&&&& 5& Father of the Bride Part II (1995)&&&&&&&&&&&&&&&&&&&&&&& Comedy
In [337]: ratings
&class 'pandas.core.frame.DataFrame'&
Int64Index: 1000209 entries, 0 to 1000208
Data columns:
user_id&&&&& 1000209& non-null values
movie_id&&&& 1000209& non-null values
rating&&&&&& 1000209& non-null values
timestamp&&& 1000209& non-null values
dtypes: int64(4)
注意,其中的年龄和职业是以编码形式给出的,它们的具体含义请参考该数据集的README文件。分析散布在三个表中的数据可不是一件轻松的事情。假设我们想要根据性别和年龄计算某部电影的平均得分,如果将所有数据都合并到一个表中的话问题就简单多了。我们先用pandas的merge函数将ratings跟users合并到一起,然后再将movies也合并进去。pandas会根据列名的重叠情况推断出哪些列是合并(或连接)键:
In [338]: data = pd.merge(pd.merge(ratings, users), movies)
In [339]: data
&class 'pandas.core.frame.DataFrame'&
Int64Index: 1000209 entries, 0 to 1000208
Data columns:
user_id&&&&&& 1000209& non-null values
movie_id&&&&& 1000209& non-null values
rating&&&&&&& 1000209& non-null values
timestamp&&&& 1000209& non-null values
gender&&&&&&& 1000209& non-null values
age&&&&&&&&&& 1000209& non-null values
occupation&&& 1000209& non-null values
zip&&&&&&&&&& 1000209& non-null values
title&&&&&&&& 1000209& non-null values
genres&&&&&&& 1000209& non-null values
dtypes: int64(6), object(4)
In [340]: data.ix[0]
user_id&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& 1
movie_id&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& 1
rating&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& 5
timestamp&&&&&&&&&&&&&&&&&&&&&&
gender&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& F
age&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& 1
occupation&&&&&&&&&&&&&&&&&&&&&&&&&&&& 10
zip&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& 48067
title&&&&&&&&&&&&&&&&&&& Toy Story (1995)
genres&&&&&&& Animation|Children's|Comedy
现在,只要稍微熟悉一下pandas,就能轻松地根据任意个用户或电影属性对评分数据进行聚合操作了。为了按性别计算每部电影的平均得分,我们可以使用pivot_table方法:
In [341]: mean_ratings = data.pivot_table('rating', rows='title',
&& ....:&cols='gender', aggfunc='mean')
In [342]: mean_ratings[:5]
gender&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& F&&&&&&&& M
$1,000,000 Duck (1971)&&&&&&&& 3..761905
'Night Mother (1986)&&&&&&&&&& 3..352941
'Til There Was You (1997)&&&&& 2..733333
'burbs, The (1989)&&&&&&&&&&&& 2..962085
...And Justice for All (1979)& 3..689024
该操作产生了另一个DataFrame,其内容为电影平均得分,行标为电影名称,列标为性别。现在,我打算过滤掉评分数据不够250条的电影(随便选的一个数字)。为了达到这个目的,我先对title进行分组,然后利用size()得到一个含有各电影分组大小的Series对象:
In [343]: ratings_by_title = data.groupby('title').size()
In [344]: ratings_by_title[:10]&
Out[344]:&
$1,000,000 Duck (1971)&&&&&&&&&&&&&&& 37
'Night Mother (1986)&&&&&&&&&&&&&&&&& 70
'Til There Was You (1997)&&&&&&&&&&&& 52
'burbs, The (1989)&&&&&&&&&&&&&&&&&& 303
...And Justice for All (1979)&&&&&&& 199
1-900 (1994)&&&&&&&&&&&&&&&&&&&&&&&&&& 2
10 Things I Hate About You (1999)&&& 700
101 Dalmatians (1961)&&&&&&&&&&&&&&& 565
101 Dalmatians (1996)&&&&&&&&&&&&&&& 364
12 Angry Men (1957)&&&&&&&&&&&&&&&&& 616
In [345]: active_titles = ratings_by_title.index[ratings_by_title &= 250]
In [346]: active_titles
Index(['burbs, The (1989), 10 Things I Hate About You (1999),
&&&&&& 101 Dalmatians (1961), ..., Young Sherlock Holmes (1985),
&&&&&& Zero Effect (1998), eXistenZ (1999)], dtype=object)
该索引中含有评分数据大于250条的电影名称,然后我们就可以据此从前面的mean_ratings中选取所需的行了:
In [347]: mean_ratings = mean_ratings.ix[active_titles]
In [348]: mean_ratings
&class 'pandas.core.frame.DataFrame'&
Index: 1216 entries, 'burbs, The (1989) to eXistenZ (1999)
Data columns:
F&&& 1216& non-null values
M&&& 1216& non-null values
dtypes: float64(2)
为了了解女性观众最喜欢的电影,我们可以对F列降序排列:
In [350]: top_female_ratings = mean_ratings.sort_index(by='F', ascending=False)
In [351]: top_female_ratings[:10]&
Out[351]:&
gender&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& F&&&&&&&& M
Close Shave, A (1995)&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& 4..473795
Wrong Trousers, The (1993)&&&&&&&&&&&&&&&&&&&&&&&&&&&&& 4..478261
Sunset Blvd. (a.k.a. Sunset Boulevard) (1950)&&&&&&&&&& 4..464589
Wallace & Gromit: The Best of Aardman Animation (1996)& 4..385075
Schindler's List (1993)&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& 4..491415
Shawshank Redemption, The (1994)&&&&&&&&&&&&&&&&&&&&&&& 4..560625
Grand Day Out, A (1992)&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& 4..293255
To Kill a Mockingbird (1962)&&&&&&&&&&&&&&&&&&&&&&&&&&& 4..372611
Creature Comforts (1990)&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& 4..272277
Usual Suspects, The (1995)&&&&&&&&&&&&&&&&&&&&&&&&&&&&& 4..518248
您对本文章有什么意见或着疑问吗?请到您的关注和建议是我们前行的参考和动力&&
您的浏览器不支持嵌入式框架,或者当前配置为不显示嵌入式框架。扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
利用S_G滤波进行MODIS_EVI时间序列数据重构
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer-4.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口

我要回帖

更多关于 uci数据集怎么用 的文章

 

随机推荐