欢迎访问开心洋葱网站，在线教程，推荐使用最新版火狐浏览器和Chrome浏览器访问本网站，欢迎加入开心洋葱 QQ群
为方便开心洋葱网用户，开心洋葱官网已经开启复制功能！
欢迎访问开心洋葱网站，手机也能访问哦~欢迎加入开心洋葱多维思维学习平台 QQ群
如果您觉得本站非常有看点，那么赶紧使用Ctrl+D 收藏开心洋葱吧~~~~~~~~~~~~~！
感谢各位客官的到来，小站的已经免费运营了15年头了，如果您觉着好，看着文章写的不错，还请看官给小站打个赏~~~~~~~~~~~~~！

标签：强化学习

强化学习——策略优化（笔记）

本文将会讨论策略优化的数学基础，并且会附上简单的实践代码。三个要点一个简单的等式，将策略梯度跟策略模型参数连接起来一条规则，允许我们将无用的项从等式里去掉另一条规则，允许我们在等式中添加有用的项……继续阅读 »

我是。 5年前 (2021-04-26) 2782浏览 0评论2185个赞

Unity3D环境强化学习训练机器人(TCP通讯机制）

Unity3D环境强化学习训练机器人(TCP通讯机制）

前言：已入强化学习一个学期了，发现自己急需一个物理环境来进行训练机器人，前前后后参考过过许多环境，但是最后选择了Unity3D,这是因为其足够简单，不用费很大的功夫就可以建立一个简易的机器人，只需要编写C#脚本和tensoflow进行通讯，立马就……继续阅读 »

JameScottX 5年前 (2021-04-26) 3191浏览 0评论1182个赞

[强化学习实战]函数近似方法与原理

[强化学习实战]函数近似方法与原理

函数近似方法有模型数值迭代算法、回合更新算法和时序差分更新算法，在每次更新价值函数时都只更新某个状态（或状态动作对）下的价值估计。但是，在有些任务中，状态和动作的数目非常大，甚至可能是无穷大，这时，不可能对所有的状态（或状态动作对）逐一进行更新……继续阅读 »

柯南404 5年前 (2021-04-26) 3253浏览 0评论1618个赞

强化学习（一）- 强化学习介绍、Markov决策过程和贝尔曼期望方程

强化学习（一）- 强化学习介绍、Markov决策过程和贝尔曼期望方程

强化学习（英语：Reinforcement learning，简称RL）是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论，即有机体如何在环……继续阅读 »

Stan Fu 5年前 (2021-04-26) 2960浏览 0评论784个赞

强化学习（三） – Gym库介绍和使用，Markov决策程序实例，动态规划决策实例

强化学习（三） – Gym库介绍和使用，Markov决策程序实例，动态规划决策实例

强化学习（三） – Gym库介绍和使用，Markov决策程序实例，动态规划决策实例1. 引言在这个部分补充之前马尔科夫决策和动态规划部分的代码。在以后的内容我会把相关代码都附到相关内容的后面。本部分代码和将来的代码会参考《……继续阅读 »

Stan Fu 5年前 (2021-04-26) 2792浏览 0评论870个赞

强化学习（四） – 蒙特卡洛方法（Monte Carlo Methods）及实例

强化学习（四） – 蒙特卡洛方法（Monte Carlo Methods）及实例

强化学习（四） – 蒙特卡洛方法（Monte Carlo Methods）及实例……继续阅读 »

Stan Fu 5年前 (2021-04-26) 1892浏览 0评论1725个赞

[强化学习实战]函数近似方法-线性近似与函数近似的收敛性

[强化学习实战]函数近似方法-线性近似与函数近似的收敛性

线性近似最常使用的函数近似就是线性近似和人工神经网络。本节介绍线性近似。线性近似是用许多特征向量的线性组合来近似价值函数。特征向量则依赖于输入（即状态或状态动作对）。以动作价值近似为例，我们可以为每个状态动作对定义多个不同的特征x ( s , ……继续阅读 »

柯南404 5年前 (2021-04-26) 2133浏览 0评论1426个赞

强化学习（五） – 时序差分学习(Temporal-Difference Learning)及其实例—-Sarsa算法, Q学习, 期望Sarsa算法

强化学习（五） – 时序差分学习(Temporal-Difference Learning)及其实例—-Sarsa算法, Q学习, 期望Sarsa算法

强化学习（五） – 时序差分学习（Temporal-Difference Learning）及其实例5.1 TD预测例5.1 回家时……继续阅读 »

Stan Fu 5年前 (2021-04-26) 3042浏览 0评论2183个赞

强化学习（六） – 连续空间中的强化学习(RL in Continuous Spaces)及相关实例

强化学习（六） – 连续空间中的强化学习(RL in Continuous Spaces)及相关实例

强化学习（六） – 连续空间中的强化学习6.1 连续空间中的强化学习6.2 离散空间和连续空间……继续阅读 »

Stan Fu 5年前 (2021-04-26) 2190浏览 0评论2116个赞

[强化学习实战]DQN算法实战-小车上山(MountainCar-v0)

[强化学习实战]DQN算法实战-小车上山(MountainCar-v0)

DQN算法实战-小车上山案例分析实验环境用线性近似求解最优策略用深度Q学习求解最优策略 ……继续阅读 »

柯南404 5年前 (2021-04-26) 3238浏览 0评论1961个赞

[强化学习实战]策略梯度方法(policy gradient)-python车杆平衡实战

[强化学习实战]策略梯度方法(policy gradient)-python车杆平衡实战

策略梯度方法-python车杆平衡实战案例分析同策策略梯度算法求解最优策略异策策略梯度算法求解最优策略……继续阅读 »

柯南404 5年前 (2021-04-26) 2242浏览 0评论2320个赞

[强化学习实战]actor-critic方法（一）—同策方法

[强化学习实战]actor-critic方法（一）—同策方法

actor-critic方法（一）— 同策方法同策actor-critic方法动作价值actor-critic算法优势actor-critic算法……继续阅读 »

柯南404 5年前 (2021-04-26) 3452浏览 0评论950个赞

[强化学习实战]马尔可夫决策-悬崖寻路python实现

[强化学习实战]马尔可夫决策-悬崖寻路python实现

马尔可夫决策-悬崖寻路python实现案例分析要点概括环境使用求解Bellman期望方程求解Bellman最优方程总……继续阅读 »

柯南404 5年前 (2021-04-26) 3216浏览 0评论779个赞

强化学习（八） – 深度Q学习(Deep Q-learning, DQL,DQN)原理及相关实例

强化学习（八） – 深度Q学习(Deep Q-learning, DQL,DQN)原理及相关实例

深度Q学习原理及相关实例8. 深度Q学习8.1 经验回放8.2 目标网络8.3 相关算法8.4……继续阅读 »

Stan Fu 5年前 (2021-04-26) 2166浏览 0评论2409个赞

MATLAB强化学习工具箱(三)-创建Simulink环境并训练智能体

MATLAB强化学习工具箱(三)-创建Simulink环境并训练智能体

创建Simulink环境并训练智能体水箱模型创建环境界面创建DDPG智能体训练智能体验证训练的智能体本地函数……继续阅读 »

柯南404 5年前 (2021-04-26) 2544浏览 0评论2797个赞

MATLAB强化学习工具箱（四）创建水箱强化学习模型

MATLAB强化学习工具箱（四）创建水箱强化学习模型

创建水箱强化学习模型问题描述行动与观测奖励信号终止信号创建环境对象重置函数&nbs……继续阅读 »

柯南404 5年前 (2021-04-26) 2315浏览 0评论189个赞

深度强化学习专栏 —— 10. 实现机械臂reach某点之环境实现实现

深度强化学习专栏 —— 10. 实现机械臂reach某点之环境实现实现

前面几节，我们已经把PPO算法实现完成了，下面只剩下环境了。今天我们把环境的封装完成。对于机械臂或者机器人的训练来说，一个比较好用的仿真器是pybullet，另外一个是unity。gazebo、vrep等虽然可以做，但是相比pybullet直接使用Pyth……继续阅读 »

bug404 5年前 (2021-04-26) 3369浏览 0评论1835个赞

版权声明
本站的文章和资源来自互联网或者站长
的原创，按照 CC BY -NC -SA 3.0 CN
协议发布和共享，转载或引用本站文章
应遵循相同协议。如果有侵犯版权的资
源请尽快联系站长，我们会在24h内删
除有争议的资源。
合作网站
友情链接
关于我们
一群热爱思考，热爱生活，有理想的新社会主义接班人的多维思维学习平台，天行健，君子以自强不息。地势坤，君子以厚德载物。

加载中……