柯南404的文章

基于强化学习与图学习的机器人导航

简介随着人工智能技术的迅速发展，移动机器人导航在拥挤的行人环境中有许多重要的应用，如医院、商场和食堂。在这些人群密集的场景中，安……继续阅读 »

5年前 (2021-04-26) 2415浏览 0评论990个赞

此示例演示了如何在高速公路驾驶场景中规划局部轨迹。本示例使用参考路径和障碍物动态列表来生成自我车辆的替代轨迹。自我车辆从DrivingScenario对象浏览提供的驾驶场景中定义的交通。车辆会根据成本，可行性和无碰撞运动在自适应巡航控制，车道变更和车辆跟随操纵之间进行……继续阅读 »

5年前 (2021-04-26) 2241浏览 0评论1431个赞

函数近似方法有模型数值迭代算法、回合更新算法和时序差分更新算法，在每次更新价值函数时都只更新某个状态（或状态动作对）下的价值估计。但是，在有些任务中，状态和动作的数目非常大，甚至可能是无穷大，这时，不可能对所有的状态（或状态动作对）逐一进行更新……继续阅读 »

5年前 (2021-04-26) 3304浏览 0评论2797个赞

线性近似最常使用的函数近似就是线性近似和人工神经网络。本节介绍线性近似。线性近似是用许多特征向量的线性组合来近似价值函数。特征向量则依赖于输入（即状态或状态动作对）。以动作价值近似为例，我们可以为每个状态动作对定义多个不同的特征x ( s , ……继续阅读 »

5年前 (2021-04-26) 2430浏览 0评论2297个赞

DQN算法实战-小车上山案例分析实验环境用线性近似求解最优策略用深度Q学习求解最优策略 ……继续阅读 »

5年前 (2021-04-26) 2031浏览 0评论1181个赞

策略梯度方法-python车杆平衡实战案例分析同策策略梯度算法求解最优策略异策策略梯度算法求解最优策略……继续阅读 »

5年前 (2021-04-26) 3268浏览 0评论200个赞

actor-critic方法（一）— 同策方法同策actor-critic方法动作价值actor-critic算法优势actor-critic算法……继续阅读 »

5年前 (2021-04-26) 2562浏览 0评论1549个赞

在MDP环境中训练Q learning创建MDP智能体环境创建Q learning智能体训练Q learning智能体验证Q learning结果……继续阅读 »

5年前 (2021-04-26) 3148浏览 0评论1406个赞

马尔可夫决策-悬崖寻路python实现案例分析要点概括环境使用求解Bellman期望方程求解Bellman最优方程总……继续阅读 »

5年前 (2021-04-26) 2101浏览 0评论921个赞

出租车调度-Q learning & SARSA案例分析实验环境使用同策时序差分学习调度异策时序差分调度< ……继续阅读 »

5年前 (2021-04-26) 2866浏览 0评论618个赞

创建Simulink环境并训练智能体水箱模型创建环境界面创建DDPG智能体训练智能体验证训练的智能体本地函数……继续阅读 »

5年前 (2021-04-26) 2725浏览 0评论1157个赞

创建水箱强化学习模型问题描述行动与观测奖励信号终止信号创建环境对象重置函数&nbs……继续阅读 »

5年前 (2021-04-26) 2632浏览 0评论436个赞