1.与BP神经网络相比RBF、GRNN和PNN神经网络囿什么特别之处?
相比最经典BP神经网络(Backpropagation neural networks误差是反向传播,而输入到输出是前向传播的相对这种有导师学习的神经网络,它的原理相對简单但是它的参数比较多,需要调整的空间比较大比如权值和阈值的确定困难。)这三个神经网络的参数只有一个spread, 因此要十分紸意spread的选择
2.RBF、GRNN和PNN神经网络分别是什么?各自有什么联系和区别
1.与BP神经网络相比RBF、GRNN和PNN神经网络囿什么特别之处?
相比最经典BP神经网络(Backpropagation neural networks误差是反向传播,而输入到输出是前向传播的相对这种有导师学习的神经网络,它的原理相對简单但是它的参数比较多,需要调整的空间比较大比如权值和阈值的确定困难。)这三个神经网络的参数只有一个spread, 因此要十分紸意spread的选择
2.RBF、GRNN和PNN神经网络分别是什么?各自有什么联系和区别
RBF网络能够逼近任意的非线性函数可以处理系统内的难以解析的规律性,具有良好的泛化能力并有很快的学习收敛速度,已成功应用于非线性函数逼近、时间序列分析、数据分类、模式识别、信息处理、图像处理、系统建模、控制和故障诊断等
简单说明一下为什么RBF网络学习收敛得比较快。当网络的一個或多个可调参数(权值或阈值)对任何一个输出都有影响时这样的网络称为全局逼近网络。由于对于每次输入网络上的每一个权值嘟要调整,从而导致全局逼近网络的学习速度很慢BP网络就是一个典型的例子。
如果对于输入空间的某个局部区域只有少数几个连接权值影响输出则该网络称为局部逼近网络。常见的局部逼近网络有RBF网络、小脑模型(CMAC)网络、B样条网络等
完全内插法要求插值函数经过每个样本点,即样本点总共有P个。
RBF的方法是要选择P个基函数每个基函数对应一个训练数据,各基函数形式为由于距离是径向同性的,因此称为径向基函数神经网络函数||X-Xp||表示差向量的模,或者叫2范数
基于为径向基函数神经网络函數的插值函数为:
输入X是个m维的向量,样本容量为PP>m。可以看到输入数据点Xp是径向基函数神经网络函数φp的中心
隐藏层的作用是把向量從低维m映射到高维P,低维线性不可分的情况到高维就线性可分了
写成向量的形式为,显然Φ是个规模这P对称矩阵且与X的维度无关,当Φ可逆时,有。
对于一大类函数当输入的X各不相同时,Φ就是可逆的。下面的几个函数就属于这“一大类”函数:
1)Gauss(高斯)函数
σ称为径向基函数神经网络函数的扩展常数,它反应了函数图像的宽度,σ越小,宽度越窄,函数越具有选择性。
完全内插存在一些问题:
1)插徝曲面必须经过所有样本点当样本中包含噪声时,神经网络将拟合出一个错误的曲面从而使泛化能力下降。
由于输入样本中包含噪声所以我们可以设计隐藏层大小为K,K<P从样本中选取K个(假设不包含噪声)作为Φ函数的中心。
2)基函数个数等于训练样本数目,当训练樣本数远远大于物理过程中固有的自由度时问题就称为超定的,插值矩阵求逆时可能导致不稳定
拟合函数F的重建问题满足以下3个条件時,称问题为适定的:
不适定问题大量存在为解决这个问题,就引入了正则化理论
正则化的基本思想是通过加入一个含有解的先验知識的约束来控制映射函数的光滑性,这样相似的输入就对应着相似的输出
寻找逼近函数F(x)通过最小化下面的目标函数来实现:
加式的第一項好理解,这是均方误差寻找最优的逼近函数,自然要使均方误差最小第二项是用来控制逼近函数光滑程度的,称为正则化项λ是正则化参数,D是一个线性微分算子,代表了对F(x)的先验知识曲率过大(光滑度过低)的F(x)通常具有较大的||DF||值,因此将受到较大的惩罚
直接給出(1)式的解:
G(X,Xp)称为Green函数,G称为Green矩阵Green函数与算子D的形式有关,当D具有旋转不变性和平移不变性时。这类Green函数的一个重要例子是多元Gauss函数:
输入样本有P个时隐藏层神经元数目为P,且第p个神经元采用的变换函数为G(X,Xp)它们相同的扩展常数σ。输出层神经元直接把净输入作为输出。输入层到隐藏层的权值全设为1,隐藏层到输出层的权值是需要训练得到的:逐一输入所有的样本计算隐藏层上所有的Green函数,根据(2)式计算權值
Cover定理指出:将复杂的模式分类问题非线性地映射到高维空间将比投影到低维空间更可能线性可分。
广义RBF网络:从输入层到隐藏层相當于是把低维空间的数据映射到高维空间输入层细胞个数为样本的维度,所以隐藏层细胞个数一定要比输入层细胞个数多从隐藏层到輸出层是对高维空间的数据进行线性分类的过程,可以采用单层感知器常用的那些学习规则参见。
注意广义RBF网络只要求隐藏层神经元个數大于输入层神经元个数并没有要求等于输入样本个数,实际上它比样本数目要少得多因为在标准RBF网络中,当样本数目很大时就需偠很多基函数,权值矩阵就会很大计算复杂且容易产生病态问题。另外广RBF网与传统RBF网相比还有以下不同:
因此广义RBF网络的设计包括:
结构设计--隐藏层含有几个節点合适
参数设计--各基函数的数据中心及扩展常数、输出节点的权值。
下面给出计算数据中心的两种方法:
接下来求权值W时就不能再用了,因为对于广义RBF网络其行数大于列数,此时可以求Φ伪逆。
数据中心的监督学习算法
最一般的情况RBF函数中心、扩展常数、输出权值都应该采用监督学习算法进行训练,經历一个误差修正学习的过程与BP网络的学习原理一样。同样采用梯度下降法定义目标函数为
ei为输入第i个样本时的误差信号。
上式的输絀函数中忽略了阈值
为使目标函数最小化,各参数的修正量应与其负梯度成正比即
上述目标函数是所有训练样本引起的误差总和,导絀的参数修正公式是一种批处理式调整即所有样本输入一轮后调整一次。目标函数也可以为瞬时值形式即当前输入引起的误差
下面我們就分别用本文最后提到的聚类的方法和数据中心的监督学习方法做一道练习题。
考虑Hermit多项式的逼近问题
训练样本这样产生:样本数P=100xi且垺从[-4,4]上的均匀分布,样本输出为F(xi)+eiei为添加的噪声,服从均值为0标准差为0.1的正态分布。
(1)用聚类方法求数据中心和扩展常数输出权值囷阈值用伪逆法求解。隐藏节点数M=10隐藏节点重叠系数λ=1,初始聚类中心取前10个训练样本
(2)用梯度下降法训练RBF网络设η=0.001,M=10初始权值为[-0.1,0.1]内的随机数,初始数据中心为[-4,4]内的随机數初始扩展常数取[0.1,0.3]内的随机数,目标误差为0.9最大训练次数为5000。