文章目录 一、算法简介1、关键点……继续阅读 » 我是。 4年前 (2021-04-26) 1588浏览 0评论141个赞
文章目录 一、PPO主体1、主结构……继续阅读 » 我是。 4年前 (2021-04-26) 3033浏览 0评论1435个赞
前面两节讲完了critic、actor以及缓冲区的设计,下面就到了actor和critic的损失函数的环节了。对于神经网络来说,最重要的就是计算损失函数进行反向传播更新参数了。在计算损失函数之前,需要有batch的数据,所以上一节也把缓冲区的设计完成。这节完成损失函数的设计……继续阅读 » bug404 4年前 (2021-04-26) 3211浏览 0评论458个赞