深度学习参数怎么调优,这12个trick告诉你

  • 时间:
  • 浏览:0
  • 来源:幸运飞艇_幸运飞艇官方

tanh它防止了zero-centered的输出大间题,然而,gradient vanishing的大间题和幂运算的大间题仍然所处。

5:训练轮数。模型收敛即可停止迭代,一般可采用验证集作为停止迭代的条件。要是连续几轮模型损失都这么 相应减少,则停止迭代。

elu也是为防止relu所处的大间题而提出,elu有relu的基本所有优点,但计算量稍大,要是这么 完整性证明elu无缘无故好于relu。

9:结构学习函数。常用的结构学习函数有cnn、rnn、lstm、gru。cnn注重词位置上的结构,而具有时序关系的词采用rnn、lstm、gru抽取结构会更有效。gru是复杂版的lstm,具有更少的参数,训练数率减慢。要是对于足够的训练数据,为了追求更好的性能可以 采用lstm模型。

10:结构抽取。max-pooling、avg-pooling是深度图学习中最常用的结构抽取最好的办法 。max-pooling是抽取最大的信息向量,然而当所处多个有用的信息向量时,另兩个多 的操作会丢失少量有用的信息。

2:学习数率。学习数率的设置第一次可以 设置大其他的学习率加快收敛,后续慢慢调整;也可以 采用动态变化学习数率的最好的办法 (比如,每一轮乘以兩个多 衰减系数要是根据损失的变化动态调整学习数率)。

6:正则化。为了防止过拟合,可通过加入l1、l2正则化。从公式可以 看出,加入l1正则化的目的是为了加强权值的稀疏性,让更多值接近于零。而l2正则化则是为了减小每次权重的调整幅度,防止模型训练过程中跳出 较大抖动。

relu从公式上可以 看出,防止了gradient vanishing大间题要是计算简单更容易优化,要是其他神经元要是永远无需被激活,导致 相应的参数永远可以 被更新(Dead ReLU Problem);leaky relu有relu的所有优点,外加无需有Dead ReLU大间题,要是在实际操作当中,并这么 完整性证明leaky relu无缘无故好于relu。

4:变量初始化。常见的变量初始化有零值初始化、随机初始化、均匀分布初始值、正态分布初始值和正交分布初始值。一般采用正态分布或均匀分布的初始化值,有的论文说正交分布的初始值能带来更好的效果。实验的以前可以 才正态分布和正交分布初始值做兩个多 尝试。

原文发布时间为:2018-11-27

Adam优化器结合了Adagrad善于防止稀疏梯度和RMSprop善于防止非平稳目标的优点,都可以 自动调整学习数率,收敛数率减慢,在复杂网络中表现更优。

学习数率决定了每次步进的大小,要是当我门都都 还要选泽兩个多 要花费的学习数率进行调优。学习数率过多会导致 不收敛,数率太小收敛数率慢。要是SGD通常训练时间更长,要是在好的初始化和学习率调度方案的清况 下,结果更可靠。

本文来自云栖社区相互企业合作伙伴“机器学习算法与Python学习”,了解相关信息可以 关注“机器学习算法与Python学习”。

8:激活函数。常用的激活函数为sigmoid、tanh、relu、leaky relu、elu。采用sigmoid激活函数计算量较大,要是sigmoid饱和区变换缓慢,求导趋近于0,导致 梯度消失。sigmoid函数的输出值恒大于0,这会导致 模型训练的收敛数率减慢。

要是这时选泽batch_size为1,则此时为在线学习,每次修正方向为本人样本的梯度方向修正,难以达到收敛。batch_size增大,防止相同数据量的时间减少,要是达到相同精度的轮数增多。实际中可以 逐步增大batch_size,随着batch_size增大,模型达到收敛,要是训练时间最为要花费。

12:batch_size选泽。对于小数据量的模型,可以 全量训练,另兩个多 能更准确的朝着极值所在的方向更新。要是对于大数据,全量训练要是导致 内存溢出,要是还要选泽兩个多 较小的batch_size。

1:优化器。机器学习训练的目的在于更新参数,优化目标函数,常见优化器有SGD,Adagrad,Adadelta,Adam,Adamax,Nadam。其中SGD和Adam优化器是最为常用的有三种优化器,SGD根据每个batch的数据计算一次局部的估计,最小化代价函数。

3:dropout。数据第一次跑模型的以前可以 不加dropout,后期调优的以前dropout用于防止过拟合有比较明显的效果,有点儿是数据量相对较小的以前。

7:预训练。对还要训练的语料进行预训练可以 加快训练数率,要是对于模型最终的效果会有少量的提升,常用的预训练工具有word2vec和glove。

11:每轮训练数据乱序。每轮数据迭代保持不同的顺序,防止模型每轮都对相同的数据进行计算。

avg-pooling是对所有信息向量求平均,当仅仅每项向量相关而大每项向量无关时,会导致 有用信息向量被噪声淹没。针对另兩个多 的清况 ,在有多个有用向量的清况 下尽量在最终的代表向量中保留這個 有用的向量信息,又想在可以 可以 兩个多 显著相关向量的清况 下直接提取该向量做代表向量,防止其被噪声淹没。这么 防止方案可以 可以 :加权平均,即Attention。