简介 随着人工智能技术的迅速发展,移动机器人导航在拥挤的行人环境中有许多重要的应用,如医院、商场和食堂。在这些人群密集的场景中,安……继续阅读 » 4年前 (2021-04-26) 2208浏览 0评论1132个赞
此示例演示了如何在高速公路驾驶场景中规划局部轨迹。 本示例使用参考路径和障碍物动态列表来生成自我车辆的替代轨迹。 自我车辆从DrivingScenario对象浏览提供的驾驶场景中定义的交通。 车辆会根据成本,可行性和无碰撞运动在自适应巡航控制,车道变更和车辆跟随操纵之间进行……继续阅读 » 4年前 (2021-04-26) 1368浏览 0评论1084个赞
函数近似方法有模型数值迭代算法、回合更新算法和时序差分更新算法,在每次更新价值函数时都只更新某个状态(或状态动作对)下的价值估计。但是,在有些任务中,状态和动作的数目非常大,甚至可能是无穷大,这时,不可能对所有的状态(或状态动作对)逐一进行更新……继续阅读 » 4年前 (2021-04-26) 2874浏览 0评论1729个赞
线性近似最常使用的函数近似就是线性近似和人工神经网络。本节介绍线性近似。线性近似是用许多特征向量的线性组合来近似价值函数。特征向量则依赖于输入(即状态或状态动作对)。以动作价值近似为例,我们可以为每个状态动作对定义多个不同的特征x ( s , ……继续阅读 » 4年前 (2021-04-26) 2065浏览 0评论199个赞
DQN算法实战-小车上山案例分析实验环境用线性近似求解最优策略用深度Q学习求解最优策略 ……继续阅读 » 4年前 (2021-04-26) 2210浏览 0评论886个赞
策略梯度方法-python车杆平衡实战案例分析同策策略梯度算法求解最优策略异策策略梯度算法求解最优策略……继续阅读 » 4年前 (2021-04-26) 1823浏览 0评论371个赞
actor-critic方法(一)— 同策方法同策actor-critic方法动作价值actor-critic算法优势actor-critic算法……继续阅读 » 4年前 (2021-04-26) 1549浏览 0评论1108个赞
在MDP环境中训练Q learning创建MDP智能体环境创建Q learning智能体训练Q learning智能体验证Q learning结果……继续阅读 » 4年前 (2021-04-26) 2574浏览 0评论1797个赞
马尔可夫决策-悬崖寻路python实现案例分析要点概括环境使用求解Bellman期望方程求解Bellman最优方程总……继续阅读 » 4年前 (2021-04-26) 2178浏览 0评论530个赞
出租车调度-Q learning & SARSA案例分析实验环境使用同策时序差分学习调度异策时序差分调度< ……继续阅读 » 4年前 (2021-04-26) 2000浏览 0评论1434个赞
创建Simulink环境并训练智能体水箱模型创建环境界面创建DDPG智能体训练智能体验证训练的智能体本地函数……继续阅读 » 4年前 (2021-04-26) 2573浏览 0评论2752个赞
创建水箱强化学习模型问题描述行动与观测奖励信号终止信号创建环境对象重置函数&nbs……继续阅读 » 4年前 (2021-04-26) 2162浏览 0评论1208个赞