其他三种梯度下降算法的区别(BGD, SGD, MBGD) 前言 我们在训练网络的时候经常会设置 batch_size,这个 batch_size 究竟是做什么用的,一万张图的数据集,应该设置为多大呢,设置为 1、10、100 或者是 10000 究竟有什么区……继续阅读 » 4年前 (2021-01-21) 1892浏览 0评论2556个赞