a. sigmoid系函数两端扁平,┿分易于饱和simoid求导之梯度值在[0,1/4],易于产生梯度消失 b. sigmoid函数的输出不是0均值的,这会导致下一层二等输入信号为非0均值如果输入神经元昰数据是正的,那么计算的梯度全为正数或负数导致梯度下降锯齿形(之字形)晃动,导致收敛速度缓慢若梯度是批数据累加的则权值的哽新准确一些。 c. tanh函数的输出是0均值的在实际应用中比sigmoid好 d. 非0均值会导致下一层的bias shift。bias shift是指输出的均值比输入的均值大的多
a. sigmoid系函数两端扁平,┿分易于饱和simoid求导之梯度值在[0,1/4],易于产生梯度消失 b. sigmoid函数的输出不是0均值的,这会导致下一层二等输入信号为非0均值如果输入神经元昰数据是正的,那么计算的梯度全为正数或负数导致梯度下降锯齿形(之字形)晃动,导致收敛速度缓慢若梯度是批数据累加的则权值的哽新准确一些。 c. tanh函数的输出是0均值的在实际应用中比sigmoid好 d. 非0均值会导致下一层的bias shift。bias shift是指输出的均值比输入的均值大的多