文章目录 一、算法简介1、关键点……继续阅读 » 我是。 4年前 (2021-04-26) 2590浏览 0评论2406个赞
文章目录 一、PPO主体1、主结构……继续阅读 » 我是。 4年前 (2021-04-26) 1690浏览 0评论941个赞
前面两节讲完了critic、actor以及缓冲区的设计,下面就到了actor和critic的损失函数的环节了。对于神经网络来说,最重要的就是计算损失函数进行反向传播更新参数了。在计算损失函数之前,需要有batch的数据,所以上一节也把缓冲区的设计完成。这节完成损失函数的设计……继续阅读 » bug404 4年前 (2021-04-26) 1998浏览 0评论1992个赞