为什么将数据转换为python转换成时间序列列数据后要重新命名

[DM] 都是套路: 从上帝视角看透时间序列和数据挖掘
【原创,转载请『保留此声明』,并注明来自公众号『数据挖掘机养成记』及作者『穆文』】
从统计学的角度
从经典机器学习的角度
从RNN等模型的角度
大家好我叫数据挖掘机皇家布鲁斯特大学肄业我喝最烈的果粒橙,钻最深的牛角尖——执着如我
今天我要开挖时间序列问题并总结出一套『大一统』的框架体系
这是一套独家秘笈
阐述数据挖掘套路
万变皆不离其宗
[1] My mind palace
在知乎上回答了一个时间序列处理的问题(点击阅读原文),顺便思考了下这几年来,自己接触的各类数据挖掘问题,整理成此文。
首先我们来看下一些常见的数据挖掘场景:
广告点击率预测: 根据用户历史上的浏览、点击、停留时间等行为,预测用户会不会点击该广告
推荐系统: 根据用户历史的购买记录、点击行为,以及商品描述文本、用户画像等等一些系列特征,预测用户未来的购买需求
命名实体识别: NLP (自然语言处理) 的经典问题,识别出一句有序的文本里,特定类别的词组
股价预测: 预测某支股票或某些股票,未来一段时间的价格,或者粗糙一点——涨跌趋势
图像识别: 比如人脸识别、医疗图像分析
视频情感分析: 根据一段视频(可以看做是一系列时间上连续的图像),分析出这个视频表达的情感倾向
我们会发现,这些问题很多都跟『时间序列』有关(除了图像识别),并且也是数据挖掘比赛的常见赛题,以天猫14年的推荐大赛、支付宝15年的资金流入流出预测为例,这俩比赛有非常完整的前十强团队答辩ppt公布,我们会发现,处理这些问题的选手中,主要分俩流派:机器学习流派和统计学流派。14年的天猫推荐大赛是机器学习流派占主流:做特征、训练分类器、模型融合,把时间信息完全融入到特征中去;而15年的支付宝比赛是统计学流派占上风:用各种 AR (auto regression) 模型,从时间维度上建模,直接考虑时间上的连续性。
这些看似迥异的做法,其实都可以归结到一个大的理论中去,而这个理论,正是本文的核心。
P.S. 关于数据挖掘比赛,去年半原创半翻译地写过一篇文章『数据挖掘比赛通用框架』,现在看来,那篇文章还是太偏『术』了,探讨细节的做法居多,并没有从『道』的层面给出解释。今天,本文将给出更 high level 的『数据挖掘之道』
首先,我认为所有『有监督学习』问题,本质上都是在建立一个函数映射 f ,可以用一个式子来刻画:
这个式子是我自己想的,但其实只要有一定机器学习基础的人,都很容易想到这一点。这里的 X 是样本的特征,Y 是样本的标签,X 可以是向量、矩阵甚至多维矩阵,相应的,Y 可以是单个标签,也可以是一组标签。我们待会儿结合实例讲讲 X 和 Y 在具体情形下的具体形式
按照 Y 的取值是连续的,还是离散的,可以把有监督学习问题分为『回归』和『分类』,可以参考我的前作『分类和回归的本质』,给你一个不同的视角看待经典问题。
按照 Y 是单个标签,还是前后有关联的序列化标签,可以把有监督学习问题分为『时间序列』和『非时间序列』问题,而本文今天的主角,就是这个『时间序列』
上面两种划分方式的两两组合,会产生四种情况,比如:时间序列的回归问题,非时间序列的分类问题,等等。这四种情况基本涵盖了所有的机器学习模型,或者说,所有实际问题,都可以通过各种方式,最后转化成这四种情况里的一种。
其实,严格来讲,『时间序列』这个说法并不准确,比如在 NLP 中,一句话的每个单词组成一个序列,但他们并不代表有时间标签,只是有前后关系,所以这类问题其实叫『事件序列(event sequences)』。我们在本文当中为了简单起见,将这种带有前后顺序关系的序列,统称为『时间序列』,特此声明。
鉴于不少网站私自爬取我的原创文章,我决定在文中插入二维码以维护来源,希望不会打扰到各位阅读
接下来,我们将正式探讨『时间序列』问题的常见处理手段
从统计学的角度
处理时间序列最自然的方法,莫过于 AR 系列的模型 (ARIMA, ARMAX, …), 以及我之前在一篇很水的论文里用过的一阶马尔可夫链模型。这类模型的的最大特点,就是直接从预测变量 Y 的角度来考虑问题,比如现在要预测 y(T),比如T 时刻的股价,那我们就会用 {y(1),…,y(t)…, y(T-1) } 这些历史信息,做一阶差分、二阶差分、均值、方差等等等,得到各种统计量(有点特征工程的意思),然后来预测 y(T)。这种模型有两个显而易见的弊端:
只用到了预测变量本身,无法利用到其他信息如影响股价的政策因素等(不过统计学里已经有一些模型在 handle 这类问题了)
看似在时间维度上建立模型,但其实是用以往的记录分别来预测 y(T), y(T+1),…, 并没有考虑这些预测变量本身的时间相关性
能处理的历史记录时长有限
从经典机器学习的角度
依然是预测 y(T) ,这时候我们会对利用上所有的其他变量 X,比如上面说的,影响股价的政策因素等,而且与统计学的做派不同,我们也对历史记录提取不同的特征,但我们并不 care 是哪类统计量,比如什么一阶差分啥的,也不太 care 统计指标,我们只管拼命做特征,开脑洞做特征,用 CNN 自动做特征,反正就是特征工程搞得飞起,然后得到一个庞大无比的 X,用来预测 y(T)。其实不难发现,这种做法,就是我们在上一节提到的『非时间序列问题』,即把一个本来是『时间序列』的问题,转换成非时间序列问题。这种做法的好处是通过完善的特征工程,我们能把过去历史信息尽可能多地建模在 X 里,当然弊端也很明显,跟 AR 系列模型一样
割裂了 y(T), y(T+1) 之间的时间相关性
处理的历史记录的时长有限
从RNN等模型的角度
先总结下,前面两种处理『时间序列』的方法,看似杂乱无章,实则可以简洁地纳入我们上一节提到的公式
具体到单个样本的预测,就是
f( X(T) ) -& Y(T)
比如,在统计学的方法中,那些从 {y(1),…,y(t)…, y(T-1) } 历史记录上提取的特征,其实就是这里的 X(T);而在经典机器学习方法中,我们脑洞打开所做的各类特征,依然可以归结为—— X(T)。
所以问题就来了,既然这两大类方法,都割裂了 y 之间的时间相关性,那有没有一个『大一统』模型能建立 y 之间的相关性呢? 我们转化成数学语言就是
f( X(1), X(2), …, X(T) ) -& Y(1), Y(2), …, Y(T)
这样,上面的 f( X(T) ) -& Y(T) 就可以看做是它的一个特例,即当样本只包含一个时间点的时候。
答案是肯定的,这样的模型是存在的,那就是——RNN,HMM,CRF 等等,这类模型在建模时显示地建立了 Y 之间的关系。但一般情况下,HMM、CRF 会有马尔可夫性假设,直白地说就是假设 Y(T) 只跟 Y(T-1) 有关系,所以相比而言,从理论上看,RNN 更完美(注意,只是理论上讲,具体效果还要看实际应用),而且,RNN 理论上能处理无限时长的时间序列,即上面的 T 可以无穷大,但因为训练时梯度在时间维度上的连乘操作,RNN 存在梯度消失和爆炸的风险,取而代之的是 GRU, LSTM 等,这又是另一个话题了,在此不表。
好,下面我们用更浅显明白的语言,来叙述这个『大一统』框架。这时候我们不得不搬出这张神图了:
这张图阐释了 RNN 所能处理的所有可能情形,绿色框是 RNN 模型,红色是 输入 X, 蓝色是预测目标 Y。我们重点关注第一个 one to one 和 最后一个many to many。不难发现,对于非时间序列模型,他们看待『时间序列』的角度是单一的,即他们建立的是针对样本 (x(T),y(T))的映射,就是这里的 one to one,而在时间序列模型里,一个样本天然的是 (sequenceX, sequenceY ),这里的 sequenceX 就是上面公式里的 X(1), X(2), …, X(T),同理 sequenceY 是 Y(1), Y(2), …, Y(T),对应的就是 many to many 的情形。
不过这里要提一下两个重要的补充
尽管理论上 RNN 可以建模无穷时间序列,可以处理不同时间长度的样本,不需要像其他方法一样,只能统计一个时间窗口内的历史信息,但在实际工程实现上,还是要尽量统一历史时间步长的,否则将对编程造成很大麻烦,这点在 Keras, Tensorflow, Theano 等框架里都有体现。
虽然把 统计学方法 和 经典机器学习方法 都纳入了这个『大一统』框架,看做是一个特例,但其实,RNN 并不需要像他们一样,做很复杂的特征工程,因为这些工作早已隐含在神经网络的各个非线性模块的各种映射里(这也是为什么说 神经网络能自动提取特征),并嵌入到了隐层输出 h 中,作为下一时刻的输入,所以下一个时刻的输入 X(T) 可以不用做那么多特征工程,这正是神经网络吸引人的地方。
写到这儿的时候,我的脑子里突然闪过研究生期间学的『预测控制』理论(好吧,我承认我已经完全脱离控制这行了)。预测控制就是利用以往的系统状态、输出信号,来生成未来 N 步的控制率,但区别在于,这里的模型是已知的线性或非线性模型,所以是一种『机理建模』,而用 RNN、RF、GBDT 等,则是完全的数据驱动的黑箱建模。
虽然讨论的是『时间序列』问题,但其实是借助 RNN 模型的理念,把处理所有『有监督学习』问题的思路都理清了
当处理的是非时间序列问题时(比如人脸识别),收集到的是一系列样本 (X, Y),只要建立 f(X) -& Y 的映射。X可以做特征工程,也可以交由 CNN 这类模型自动学出来
当样本是时间序列时,有两种做法:
仿照非时间序列问题的处理方法,收集一系列样本 (X(t),Y(t))建立 f(X(t))-&Y(t) 的映射,但其实是『大一统』框架的一个特烈
更通用的『大一统』框架,则是从 RNN 的角度看待这个问题,建立 f( X(1), X(2), …, X(T) ) -& Y(1), Y(2), …, Y(T) 的映射
额外补充一点:在图像处理、语音识别中,输入特征的维度(像素点、语音波形)之间的相关度很大,可以交给神经网络自动提取特征,而在推荐系统、nlp等问题中,输入特征的维度(user的id、性别、年龄、词的词形)之间的相关性并不那么强,所以神经网络提取特征的效果,未必比得上人工特征。我认为这就是为何深度学习最先在语音和图像领域打开市场的主要原因。
今天所讲的文章,都是『道』的层面,至于具体做法,比如如何提取特征,如何训练模型,可以参考之前两篇文章 『数据挖掘比赛通用框架』 、『优雅高效地数据挖掘』
欢迎打赏支持24K纯原创!
另外建了个讨论群,只讨论技术相关问题,可以加我私人微信号,邀请进群,请务必备注:公众号读者,否则不予通过中国雪深长时间序列数据集()
该数据集是“中国雪深长时间序列数据集()”的升级版本。 制作该数据集的源数据与上一版本存在差异,由于AMSR-E在2011年停止运行,从2008年到2016年的雪深采用SSMI/S传感器的亮度温度进行提取。本数据集提供日到日逐日的中国范围的积雪厚度分布数据,其空间分辨率为0.25度。用于反演该雪深数据集的原始数据来自美国国家雪冰数据中心(NSIDC)处理的SMMR(年),SSM/I(年)和SSMI/S()逐日被动微波亮温数据(EASE-Grid)。由于三个传感器搭载在不同的平台上,所以得到的数据存在一定的系统不一致性。通过对不同传感器的亮温进行交叉定标提高亮温数据在时间上的一致性。然后利用车涛博士在Chang算法基础上针对中国地区进行修正的算法进行雪深反演。具体反演方法参考数据说明文档“中国雪深长时间序列数据集()介绍.doc”。该数据集是经纬度投影,每天一个文件,文件命名方式为:年+天,如1990001表示1990年第一天,1990207表示1990年第207天。详细数据说明请参考数据文档。
本数据要求的多篇文献引用
Che T, Li X, Jin R, Armstrong R, Zhang TJ, 2008. Snow depth derived from passive microwave remote-sensing data in China. Annals of Glaciology, 49: 145-154.Liyun Dai, Tao Che, Jian Wang, Pu Zhang. Snow Depth and Snow Water Equivalent Estimation from AMSR-E Data Based on a priori Snow Characteristics in Xinjiang, China. Remote Sensing of Environment, -29.Liyun Dai, Tao Che, and Yongjian Ding. Inter-calibrating SMMR, SSM/I and SSMI/S data to improve the consistency of snow-depth products in China. Remote Sensing, 12-7230; doi:10.3390/rs
本数据引用方式
Che T, Li X, Jin R, Armstrong R, Zhang TJ, 2008. Snow depth derived from passive microwave remote-sensing data in China. Annals of Glaciology, 49: 145-154.
数据使用声明
为尊重知识产权、保障数据作者的权益、扩展数据中心的服务、评估数据的应用潜力,请数据使用者在使用数据所产生的研究成果中(包括公开发表的论文、论著、数据产品和未公开发表的研究报告、数据产品等成果),明确注明数据来源和数据作者。对于转载(二次或多次发布)的数据,作者还须注明原始数据来源。中文发表的成果参考以下规范注明: 数据来源于“黑河计划数据管理中心”(http://westdc.westgis.ac.cn)英文发表的成果依据以下规范注明: The data set is provided by Cold and Arid Regions Sciences Data Center at Lanzhou (http://westdc.westgis.ac.cn)
支持项目的信息:国家重点基础研究发展计划(973计划):冰冻圈变化及其影响研究-复杂地形积雪遥感及多尺度积雪变化研究(2013CBA01802)
最近10条服务记录如下:
中国科学院遥感与数字地球研究所 陈豪 用途:博士毕业论文:《分布式流域湿地生态水文模型及应用研究》
导师:张万昌研究员 中国科学院地理科学与资源研究所 林浩曦 用途:用于冰冻圈服务功能综合区划研究 西北师范大学 潘汉雄 用途:用于石羊河上游宁缠河小流域径流组分构成及汇流过程研究 中国科学院青藏高原研究所 丁劲 用途:希望使用该产品获得青藏高原东北部及雅鲁藏布江流域近十几年积雪的变化情况,之后结合气象和水文模型进行径流、气候和土地覆被类型变化的相关研究。并希望以此数据为基础,完成博士论文的部分内容。谢谢! 北京师范大学 韩冬梅 用途:拟发表北方半干旱草原区极值气候背景下蒸散发组分变化,以及博士论文《持续干旱下半干旱草原区水热过程及其生态效应研究》 加州大学洛杉矶分校土木与环境学院 刘雨霏 用途:下载的数据将用于模型的驱动、验证;预测积雪分布并分析区域气候/水文的影响
东北师范大学 那日苏 用途:论文内容: 中国积雪分特征及气候变化研究
导师:吴正方教授 南方科技大学 冯雨晴 用途:用以博士论文研究,青藏高原遥感生态水文学。 东北师范大学地理科学学院 王雷 用途:长白山地森林植被不同季节NDVI与气候要素的相关性计算,以及森林植被季相模型的建立等 中国科学院东北地理与农业生态研究所 薛振山 用途:用于地表温度计算
格式:文本数据
大小:5493MB
下载:295次
浏览:6301次
相关文档:
数据共享方式:在线(可直接下载)
元数据作者:,数据服务联系人:资源提供者:
元数据更新时间:
下载元数据:
版本历史:
(C) 寒区旱区科学数据中心没有更多推荐了,
不良信息举报
举报内容:
时间序列数据库的秘密
举报原因:
原文地址:
原因补充:
最多只允许输入30个字
加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!AI 研习社按:本文作者 Jason Brownlee 为澳大利亚知名机器学习专家,对时间序列预测尤有心得。原文发布于其博客。AI 研习社编译。
Jason Brownlee
机器学习方法,比如深度学习,是可以用来解决时间序列预测问题的。
但在使用机器学习之前,时间序列问题需要被转化为监督学习问题。从仅仅是一个序列,变成成对的输入、输出序列。
这篇教程里,你将学到如何把单变量、多变量时间序列问题转为机器学习算法能解决的监督学习问题。本教程包含:
如何创建把时间序列数据集转为监督学习数据集的函数;
如何让单变量时间序列数据适配机器学习
如何让多变量时间序列数据适配机器学习
现在我们开始。
时间序列 vs. 监督学习
正式开始前,我们需要更好地理解时间序列和监督学习的数据形式。时间序列是一组按照时间指数排序的数字序列,可被看成是一列有序的值。比如:
监督学习问题由输入(X)和输出(y)速成,其算法能学习如何根据输入模式预测输出模式。
Pandas shift() 函数
对于把时间序列数据转化为监督学习问题,这是一个关键的函数。
给定一个 DataFrame, shift() 函数可被用来创建数据列的副本,然后 push forward (NaN 值组成的行添加到前面)或者 pull back(NaN 值组成的行添加到末尾)。为了给时间序列数据集创建滞后观察(lag observation)列以及预测观察(forecast observation)列,并按照监督学习的格式来,这是必须的操作。
我们来看看一些 shift 函数的实操例子。
我们可以定义一个由 10 个数字序列组成的伪时间序列数据集,该例子中,DataFrame 中的单个一列如下所示:
运行该例子,输出时间序列数据,每个观察要有对应的行指数。
我们通过在顶端插入新的一行,用一个时间步(time step)把所有的观察降档(shift down)。由于新的一行不含数据,可以用 NaN 来表示 “无数据”。
Shift 函数能完成该任务。我们可以把处理过的列插入到原始序列旁边。
运行该例子,使数据集有了两列。第一列是原始观察,第二列是 shift 过新产生的列。
可看到,把序列向前 shift 一个时间步,产生了一个原始的监督学习问题,虽然
X 、y 的顺序不对。无视行标签的列。由于 NaN 值,第一行需要被抛弃。第二行第二列(输入 X)现实输入值是 0.0,第一列的值是 1 (输出 y)。
我们能看到,如果在 shift 2、3 …… 重复该过程,要如何创建能用来预测输出值 y 的长输出序列(X)。
Shift 操作器可以接受一个负整数值。这起到了通过在末尾插入新的行,来拉起观察的作用。下面是例子:
运行该例子显示出,新的一列的最后一个值是一个 NaN 值。可以看到,预测列可被作为输入 X,第二行作为输出值
(y)。输入值 0 就可以用来预测输出值 1。
技术上,在时间序列预测术语里,当前时间是(t),未来是 (t+1, t+n) 它们都是预测时间。过去的观察 (t-1, t-n) 被用来做预测。对于一个监督学习问题,在一个有输入、输出模式的时间序列里,我们可以看到如何用正负 shift 来生成新的 DataFrame 。
这不仅可用来解决经典的 X -& y 预测问题, 还可用到输入、输出都是序列的 X -& Y 上。
另外,shift 函数也在所谓的多元时间序列问题上有效。这种情况下,并不是时间序列不只有一组观察,而是多组(举个例子,气温和气压)。所有时间序列中的变量可被向前或向后 shift,来创建多元输入输出序列。更多详情下文会提到。
The series_to_supervised() 函数
给定理想的输入、输出序列长度,我们可以用 Pandas 里的 shift() 函数自动生成时间序列问题的框架。
这是一个很有用的工具。它帮助我们用机器学习算法探索同一个时间序列问题的不同框架,来找出哪一个将会产生具有更好效果的模型。这部分中,我们为 series_to_supervised() ,一个新的 Python 函数定义。它能把单变量、多变量时间序列转化为监督学习数据集。
该函数有四个参数:
Data: 作为一个列表或 2D NumPy 阵列的观察序列。必需。
n_in: 作为输入 X 的 lag observation 的数量。值可能在 [1..len(data)] 之间。可选。默认为 1 。
n_out: 作为输出 y 的观察的数量。值可能在 [0..len(data)-1] 之间。可选。默认为 1 。
dropnan: 不管随着 NaN 值是否丢掉一些行,它都是布尔值(Boolean)。可选。默认为 True。
函数返回一个单个的值:
return: 序列的 Pandas DataFrame 转为监督学习。
新数据集创建为一个 DataFrame,每一列通过变量字数和时间步命名。这使得开发者能设计各种各样时间步序列类型的预测问题。
当 DataFrame 被返回,你可以决定怎么把它的行,分为监督学习的 X 和 y 部分。这里可完全按照你的想法。该函数用默认参数定义,因此,如果你仅仅用你的数据调用它。它会创建一个 X 为 t-1,y 是 t 的 DataFrame。
该函数兼容 Python 2 和 Python 3。完整函数在下面,包括注解。
有了整个的函数,现在可以开始探索怎么用它。
一步的单变量预测
在时间序列预测中,使用滞后观察(比如 t-1)作为输入变量来预测当前时间不,是通用做法。这被称为一步预测(one-step forecasting)。下面的例子,展示了如何一个滞后时间步( t-1)预测当前时间步(t).
运行例子,输出改造过的时间序列的输出。
可看到,观察被命名为 “var1”,输入观察被命名为
(t-1),输出时间步被命名为 (t)。还可以看到,NaN 值得行,已经自动从 DataFrame 中移除。我们可以用随机数字长度的输入序列重复该例子,比如 3。这可以通过把输入序列的长度确定为参数来实现。比如:
data = series_to_supervised(values, 3)
完整例子如下:
再一次,运行例子输出改造的序列。可以看到输入序列是正确的从左到右的顺序。输出变量在最右边进行预测。
多步骤预测还是序列预测
有另一类预测问题,是用过去的观察,来预测出将来贯彻的一个序列。这可以被称作序列预测或者多步骤预测。通过确定另一个参数,我们能把一个时间序列转化为序列预测。比如,我们可以把一个输入序列为两个过去观察,要预测两个未来观察的序列问题,进行如下转化:
data = series_to_supervised(values, 2, 2)
完整例子如下:
运行该例子,显示出分别把 (t-n)、(t+n) 作为输入、输出变量,以及把当前观察 (t)作为输出之间的区别。
另一种重要的时间序列类型被称为多元时间序列。这时有对多个不同度量(measure)的观察,以及我们对预测其中的一个或更多的兴趣。比如说,也许有两组时间序列观察 obs1 和 obs2 ,我们想要预测其中之一,或者两个都预测。我们可用同样的方法调用 series_to_supervised()。举个例子:
运行这个例子会输出数据的新框架,显示出两个变量在一个时间步下的输入模式,以及两个变量一个时间不的输出模式。
取决去问题的具体内容。可以随机把列分为 X 和 Y 部分,比如说,如果当前观察 var1 也被作为输入提供,那么只有 var2 会被预测。
通过上面这样确定具体的输入输出序列长度,可轻松完成多元时间序列的预测。下面是一个把一个时间步作为输入,两个时间步作为预测序列的转化例子。
运行该例子会显示改造过的大 DataFrame。
建议:拿你自己的数据集做实验,试试多个不同的框架来看哪个效果更好。
文章转载自网络,作者观点不代表本网站立场,如需处理请联系客服
AI研习社其它文章
从学术开发和企业活动上看,阿里巴巴达摩院机器智能技术实验室在雷锋网学术频道 AI 科技评论旗下数据库项目「AI 影响因子」中有不错的表现。实验室分别在SQuAD和KITTI比赛中获得第一名,近期在 AAAI 2018 上,达摩院机器智能技术实验室共有 4 篇论文被录用,在CVPR 2018
雷锋网 AI 研习社按:本文由来自伦敦的数据科学家Pedro Lopez编写,文中提供了与人脸识别、图像识别、文本分析、自然语言处理、情绪分析、语言翻译、机器学习和预测有关的 50 多个应用程序接口(API),雷锋网 AI 研习社根据原文进行了编译。本篇基于 2017 年的推荐清单
该库给 YOLOv3 提供了一些更新,并且做了些小的设计使其变得更好,同时还训练了新的网络。它更加精确,运行速度同样很快。在 320×320 YOLOv3 上以 22.2 mAP 运行 22 ms,与 SSD 一样准确,但速度提高了三倍。在 Titan X上,它能在 51 ms 内达到 57.9 AP50,相比较而言,
如果你浏览 AI 相关的新闻,不难发现「高薪」、「百万年薪」等极具诱惑力的词汇的出现频率非常高。同样,在知乎中搜索「如何转型 AI?」、「AI 领域需要怎样的人才?」、「普通程序员如何学习 AI 知识?」等问题,也总会发现各种各样的答案和衍生的话题。在人工智能浪潮
本文为雷锋字幕组编译的技术博客,原文名Understanding RNNs using the game of Chinese whispers ,作者 Eniola Alese。翻译|陈涛 整理| 吴璇循环神经网络(RNN)是人工神经网络中非常流行的一个版本,其可以很好地处理序列数据类型。该数据类型指的是将一组数据点以特
AI 研习社按:本文为BIGSCity 的知乎专栏内容,作者王小贱。北航智慧城市兴趣组 BIGSCITY是隶属于北京航空航天大学计算机学院的一个学术研究小组,小组致力于研究机器学习与数据挖掘在城市科学、社会科学等领域的交叉应用技术。AI 科技评论获得BIGSCity授权转载,敬请期
AI 研习社按:人工智能当前正处于爆发阶段,语音交互作为人工智能的重要组成部分正在各行业全面的落地,在人机进行语音交互的过程中,机器需要通过耳朵实现听觉的作用。近期,在雷锋网研习社公开课上,科大讯飞产品经理李伟为大家科普了当前正热的智能音箱背后的功臣——
最近沉迷于抖音无法自拔,常常花好几个小时在抖音漂亮小姐姐身上。为了高效、直接地找到漂亮小姐姐,我用 Python + ADB 做了一个 Python 抖音机器人 Douyin-Bot。Github:https://github.com/wangshub/Douyin-Bot特性自动翻页颜值检测人脸识别自动点赞自动关注随机防 Ba
最近,雷锋网宅客频道编辑发现了一份《2018年中国程序员研究报告》,据说,这是问了1684个程序员的有效结果,被问卷调查的程序员涵盖北上广深等一线城市、杭州、成都等15个城市新一线城市,厦门、合肥、佛山等30个二线城市。问题都很接地气,比如,工作时长、有没有买房
MIT6.S094 完整版授权中译视频 戳文末「阅读原文」翻译|田茜 涂世文 蒋成
整理| 吴璇本篇是 MIT6.S094 第三讲深度强化学习的课程笔记。如果你想对增强学习有一个简要的了解,这次课程超级适合你。怎样教会系统在数据中感知世界并采取行动?一个人工智能系统需要实现的任
深度自然语言处理课 CS224d ()为斯坦福官方开源最新版本,由斯坦福大学教授、 Salesforce 首席科学家 Richard Socher 授权雷锋字幕组翻译。每周三,同步更新在 AI 研习社、AI 慕课学院。第三讲高级词向量表示上手视频约 13 分钟翻译| 余杭 校对|凡江课程直达
本文为雷锋字幕组编译的技术博客,原标题 Step-by-step walkthrough of RNN Training - Part I,作者为 Eniola Alese。翻译 | 赵朋飞 程思婕
整理 | 凡江RNN 前向传播逐步演练单个 RNN Cell 中的前向传播算法在之前的文章中,我们介绍了 RNN 的基本结构并将其按时间序列
这是一款 SpaceX Falcon 9 第一级火箭的垂直火箭着陆模拟器,该模拟器用 Python 3.5 开发并且在 OpenAI Gym 环境中编写。该模拟器采用的是 Box2D 物理引擎,环境和 Lunar Lander 类似。以下为演示动画:https://www.youtube.com/watch?v=4_igzo4qNmQGithub:https://git
本文发布于 OpenAI 官方博客,AI 研习社将原文编译如下:我们发布了用于游戏研究的强化学习平台完整版 Gym Retro,支持的游戏从大约 70 多个雅达利和 30 多个世嘉游戏扩展到各种仿真器支持的 1000 多个游戏。同时我们还发布了用于增加新游戏的工具。我们使用 Gym Retro
AI 研习社按,日前,由中国中文信息学会 (CIPS)、中国计算机学会 (CCF) 和百度公司联合举办的「2018 机器阅读理解技术竞赛」落下帷幕,Naturali 奇点机智从国内外 800 多支队伍中脱颖而出,获得第一名。在两个评价标准 ROUGE-L 和 BLEU-4 上,奇点机智分别获得 63.38 和
这里是,雷锋字幕组编译的Two minutes paper专栏,每周带大家用碎片时间阅览前沿技术,了解AI领域的最新研究成果。原标题:AI Learns Painterly Harmonization | Two Minute Papers #249翻译 | 孙启超
整理 | 凡江你的朋友圈有被《我的前世青年照》刷屏么?大家之所以
“ 我打了几百个响指,也学不好线性代数 ”···历史长河里,世世代代的教授和教科书撰写人,总是用荒谬复杂的矩阵计算,掩盖数学真实的简洁模样。可怕的是,世界上没有什么学科,比线性代数更基础。计算机科学、物理、电子工程、药物工程、数据科学……数学都是命根子
AI 研习社按:本文由Ben Packer, Yoni Halpern, Mario Guajardo-Céspedes & Margaret Mitchell (Google AI)于 2018 年 4 月 13 日发布。这篇文章讨论并尝试实际测量了不同文本嵌入模型中的性别偏差。当面对任务时,我们机器学习从业者通常基于该任务上的表现好坏
本文原载于 TensorFlow 官方微信公众号上,发布人为 Josh Lovejoy 和 Jess Holbrook,AI 研习社获其授权转载。机器学习是帮助计算机揭示数据模式与关系的科学。机器学习是一个强大的工具,可用于打造个性化的动态体验。机器学习已经有力地推动了从 Netflix 建议到自动驾
整个世界每天都生产和消费大量的视频内容,目前在 YouTube 上,人们每天都会观看超过 10 亿小时的视频。为了推动视频分析和视频理解相关技术的进步,Google AI 已经公布了一个大型视频数据集 —— YouTube-8M,该数据集由数百万个 YouTube 视频特征和来自3,700多个可视实

我要回帖

更多关于 时间序列数据分析 的文章

 

随机推荐