电脑emacs 大神 配置文件们,帮忙看一下我这个配置的话能流畅的玩gta5么?

Deep learning From Image to Sequence - 推酷
Deep learning From Image to Sequence
本文笔记旨在概括地讲deep learning的经典应用。内容太大,分三块。
---------------------------------------------------------------------------------------------
1. 回顾 deep learning在图像上的经典应用&
1.1 Autoencoder
1.3 CNN&详细的见上一篇CNN&
2.&deep learning处理语音等时序信号
2.1 对什么时序信号解决什么问题
2.2 准备知识
2.2.1 Hidden Markov Model(HMM)
2.2.3&Restricted Boltzmann Machine(RBM)
3. &DBN 和 RNN 在语音上的应用&
3.1.1 DBN架构
3.1.2 DBN-DNN for Speech Recognition
3.2.1 RNN种类
3.2.2 RNN-RBM for Sequential signal Prediction
---------------------------------------------------------------------------------------------
1. 回顾 deep learning处理图像等非时序信号 &详细的见上一篇CNN&
----------------------------------------------
1.1 AutoEncoder(unsupervised)
扩展:Stack AutoEncoder(可以变成supervised),见Andrew Ng的
,我就不贴图了
----------------------------------------------
MLP(ANN)是最naive的神网分类器。一个hidden层,连两端nonlinear function,output输出为f(x),softmax做分类。
----------------------------------------------
1.3 Convolutional Neural Network
特点:1. 非全连接,2、共享权重
做法:1. 卷积 2. 降采样(pooling)
具体见上一篇CNN
---------------------------------------------------------------------------------------------
2. deep learning处理语音等时序信号
2.1 对什么时序信号解决什么问题:
handwriting recognition speech recognition music composition protein analysis stock market prediction ...
2.2 准备知识:
----------------------------------------------
2.2.1 Hidden Markov Model(HMM) - 带unobserved(这就是所谓hidden)states的随机过程,表示输入语音信号和hidden state(因素)的模型:
&figure from wiki&
训练HMM模型:给定一个时序y1...yT, 用MLE(typically EM implemented,具体见这篇第三部分training) 估计参数;
----------------------------------------------
(较大,单独放在一篇blog里了)
----------------------------------------------
2.2.3&Restricted Boltzmann Machine
讲RBM之前要先讲一下生成模型…… &How to build a single layer of feature detector&
大体分为两类——directed model & undirected model:
1. directed model (e.g. GMM 从离散分布求latent状态)
根据先验分布选择latent variable的状态
给定latent states,根据条件分布求observable variables的状态
2. undirected model
只用参数W,通过能量函数定义v(visible)和h(hidden latent variables)的联合概率
根据”explaining away”,如果latent和visible变量有着非线性关系,directed model很难推断出latent variable的状态;但在undirected model中,只要latent变量间没有变项链就可以轻松推断。
PS: explaining away 是什么?
state的先验相互独立,后验也相互独立,
下面再讲RBM。
RBM 是马尔科夫随机场(MRF)的一种。不同之处:
1. RBM是一个双向连接图(bipartite connectivity graph)
2. RBM在不同unit之间不共享权重
3. 有一部分变量是unobserved
RBM对能量函数E(v,h)的定义:
RBM的参数构成:W(weight), bias_h, bias_v
已知联合分布P(v,h) ,
可通过Gibbs采样
边缘分布分别得到h,v,根据Gradient of NLL进行梯度下降学习到参数。
RBM的训练目标是:最大化p(v=visible)。( visible =真实的visible数据)
RBM实际训练过程中,对每个training_batch:
contrastive divergence 采样k次(gibbs CD-k)
根据cost function进行update :&
, 即&cost = T.mean(self.free_energy(self.input)) - T.mean(self.free_energy(chain_end))
上面讲的RBM都是v,h = 0/1的,那怎么处理real-value的呢?
ANS:用Gaussian-Bernoulli RBM (GRBM)。对上面经典RBM改动不大,只需要改energy function & conditional prob:
3. &DBN 和 RNN 在语音上的应用&
3.1.1 DBN架构
1. pre-train
从左到右来看,由于输入为real-value,所以第一层为GRBM,训练W1
GRBM训练出来的hidden给下一个RBM做input,训练W2
这个RBM训练出来的hidden再传给下一个RBM做input,训练W3
……(重复)
2. 可以直接把这几层pre-train好的W叠起来,双向weight箭头全改成top-down的,成了一个DBN生成模型
3. 加分类器
可以最后在这个pre-trained网络头部加一个softmax分类器,其中每个节点表示HMM中一个状态,去做有监督的fine-tuning.。
3.1.2 DBN-DNN for Speech Recognition
如果你仔细看过上一篇
就会发现,这个模型和GMM-HMM只差在GMM
即,DNN-HMM用DNN(undirected model)代替了HMM(directed model),这样的好处是可以解决h,v之间非线性关系映射。
Fig1. GMM-HMM & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & &Fig2. DNN-HMM
3.2.1 RNN种类
1.Fully Recurrent Network
2.Hopfield Network
3.Elman Network (Simple Recurrent networks)
4.Long short term memory network
3.2.2 RNN-RBM for Sequential signal Prediction
见一个RNN例子,RNNRBM(
Reference:&
为了大家看的方便,我推荐从简了。。。抄了太多图,不贴出处了大牛们见谅。。不然一堆推荐无从下手滴样纸
Deep Learning 在语音上的应用DNN经典文章:
1. Hinton, Li Deng, Dong Yu大作:
2. Andrew Ng, NIPS 09,
Deep Learning 在语音上的应用RNN经典文章:
Bengio ICML 2012. RNN+RBM
有实现 (下一篇细讲)
2.&Schmidhuber JMLR 2002
讲LSTM经典
3.&The Use of Recurrent Neural Networks in Continuous Speech Recognition,
,但是确实经典
已发表评论数()
请填写推刊名
描述不能大于100个字符!
权限设置: 公开
仅自己可见
正文不准确
标题不准确
排版有问题
主题不准确
没有分页内容
图片无法显示
视频无法显示
与原文不一致能量模型(EBM)、限制波尔兹曼机(RBM)
在介绍EBM(Energy Based Model)和BM(Boltzmann Machines)之前,我们先来了解一下产生式模型(generative model)和判别式模型(discriminative model)的区别
产生式模型:用来估计联合概率P(x,y), 因此可以根据联合概率来生成样本,如HMM
(1,0),(1,0), (2,0), (2, 1)
产生式模型:
P(x,y): & &P(1, 0) = 1/2, P(1, 1) = 0, P(2, 0)= 1/4, P(2, 1) = 1/4.
判别式模型:
P(y|x): & &P(0|1) = 1, P(1|1) = 0, P(0|2) =1/2, P(1|2) = 1/2
基于能量的模型和波尔兹曼机
包含一个可见层和一个隐层的BM模型如图2(a)所示
BM具有强大的无监督学习能力,能够学习数据中复杂的规则。但是,拥有这种学习能力的代价是其训练/学习时间非常长。此外,不仅无法确切地计算BM所表示的分布,甚至得到服从BM所表示分布的随机样本也很困难。为克服此问题,引入了一种限制的波尔兹曼机(RBM)。RBM具有一个可见层,一个隐层,层内无连接,其结构如图2(b)所示。Roux和Bengio从理论上证明昬只要隐单元的数目足够多,RBM能够拟合任意离散分布。
3. 限制性玻尔兹曼机
玻尔兹曼机(Boltzmann Machine,BM)是一种特殊形式的对数线性的马尔科夫随机场(Markov Random Field,MRF),即能量函数是自由变量的线性函数。 通过引入隐含单元,我们可以提升模型的表达能力,表示非常复杂的概率分布。
限制性玻尔兹曼机(RBM)进一步加一些约束,在RBM中不存在可见单元与可见单元的链接,也不存在隐含单元与隐含单元的链接,如下图所示
RBM的能量函数E(v,h)定义为,
E(v,h)=-b′v-c′h-h′Wv.
其中’表示转置,b,c,W为模型的参数,b,c分别为可见层和隐含层的偏置,W为可见层与隐含层的链接权重。此时,对应的自由能量为,
另外,由于RBM的特殊结构,可见层/隐含层内个单元之间是相互独立的,所以我们有,
使用二值单元的RBM
如果RBM中的每个单元都是二值的,即有vj,hi∈{0,1},我们可以得到,
而对应的自由能量函数为,
使用梯度下降法求解模型参数时,各参数的梯度值如下[2],
4. RBM的学习
前面提到了,RBM是很难学习的,即模型的参数很难确定,下面我们就具体讨论一下基于采样的近似学习方法。学习RBM的任务是求出模型的参数&θ={c,b,W}的值。
4.1 Gibbs采样
Gibbs采样是一种基于马尔科夫链蒙特卡罗(Markov Chain Monte Carlo,MCMC)策略的采样方法。对于一个K为随机向量X=(X1,X2,…,XK),
假设我们无法求得关于X的联合分布P(X),但我们知道给定X的其他分量时,其第k个分量Xk的条件分布,即P(Xk|Xk-),其中Xk-=(X1,X2,…,Xk-1,Xk+1,…,XK),那么,我们可以从X的一个任意状态(比如[x1(0),x2(0),…,xK(0)])开始,利用上述条件
分布,迭代的对其分量依次采样,随着采样次数的增加,随机变量[x1(n),x2(n),…,xK(n)]的概率分布将以n的几何级数的速度收敛于X的联合
概率分布P(X)。也就是说,我们可以在未知联合概率分布的条件下对其进行采样。
基于RBM的对称结构,以及其中神经元状态的条件独立性,我们可以使用Gibbs采样方法得到服从RBM定义的分布的随机样本。在RBM中进行k步Gibbs采样的具体
算法为:用一个训练样本(或可见层的任何随机化状态)初始化可见层的状态v0,交替进行如下采样:
在经过步数k足够大的情况下,我们可以得到服从RBM所定义的分布的样本。此外,使用Gibbs采样我们也可以得到式⑧中第一项的近似。
4.2 对比散度算法
尽管利用Gibbs采样我们可以得到对数似然函数关于未知参数梯度的近似,但通常情况下需要使用较大的采样步数,这使得RBM的训练效率仍然不高,尤其是当观测数据 的特征维数较高时。2002年,Hinton[4]提出了RBM的一个快速学习算法,即对比散度(Contrastive Divergence,CD)。实践证明,对比散度(CD)是一种成功的用于求解对数似然函数
与Gibbs采样不同,Hinton指出当使用训练数据初 始化v0时,我们仅需要使用k(通常k=1)步Gibbs采样变可以得到足够好的近似。在CD算法一开始,可见单元的状态被设置成一个训练样本,并利用式(11)第一个式子
来计算所有隐层单元的二值状态,在所有隐层单元的状态确定了之后,根据式(11)第二个式子来确定第i个可见单元vi取值为1的概率,进而产生可见层的一个重构
(reconstruction)。然后将重构的可见层作为真实的模型代入式(13)各式中第一项,这样就可以进行梯度下降算法了。
在RBM中,可见单元一般等于训练数据的特征维数,而隐层单元数需要事先给定,这里设可见单元数和隐单元数分别为n和m,令W表示可见层与隐层间的链接权重
矩阵(m×n阶),a(n维列向量)和b(m维列向量)分别表示可见层与隐层的偏置向量。
RBM的基于CD的快速学习算法主要步骤如下:
以原始输入数据训练
抽取的特征作为顶部的输入训练
可以通过CD快速训练,这一框架绕过了直接从整体上训练DBN的高复杂度,从而将其化简为对多个的训练问题。经过这种方式训练后,可以再通过传统的全局学习算法,如反向传播算法,对网络进行微调,从而使模型收敛到局部最优点。这种学习算法,本质上等同于先通过逐层RBM训练将模型的参数初始化为较优的值,再通过少量的传统学习算法进一步训练。这样一来,不仅解决了模型训练速度慢的问题,大量试验结果也表明,这种方式能够产生非常好的参数初始值,从而大大提升了模型的建模能力。
References
看过本文的人也看了:
我要留言技术领域:
取消收藏确定要取消收藏吗?
删除图谱提示你保存在该图谱下的知识内容也会被删除,建议你先将内容移到其他图谱中。你确定要删除知识图谱及其内容吗?
删除节点提示无法删除该知识节点,因该节点下仍保存有相关知识内容!
删除节点提示你确定要删除该知识节点吗?

我要回帖

更多关于 酷派大神f2配置 的文章

 

随机推荐