厦大纪荣嵘的paper
1.由于二值化,权重的符号对收敛起到较大作用,而一部分权重的符号难以改变限制了bnn的表达,即:死权重
2.所以引入了RECU恢复死权重的活性,(行为是权重标准化,研究了阈值
![avatar][base64str1]
具体公式是这个。t的最优取值是0.82
3.然而还有另一个影响因子 权重的信息熵。 大量使用正则化使得信息熵不可控。
b取绝对值的和的平均值,小于e-1的值不太能体现性能,所以需要扩大b的值(行为还是标准化,根据拉普拉斯定理,取根号2很不错,所以就乘一个根号2,每次更新后:
- 扩大t增加信息熵但是超过0.82会出现不可控的量化误差,这是固有的矛盾,作者使用了一种指数调度器,在训练时灵活调整t,以求帕累托最优。
对于预测来说,只要加入处理权重的那几句代码,其他的不变。
代码有问题没办法复现。
[base64str1]: