• 欢迎访问开心洋葱网站,在线教程,推荐使用最新版火狐浏览器和Chrome浏览器访问本网站,欢迎加入开心洋葱 QQ群
  • 为方便开心洋葱网用户,开心洋葱官网已经开启复制功能!
  • 欢迎访问开心洋葱网站,手机也能访问哦~欢迎加入开心洋葱多维思维学习平台 QQ群
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏开心洋葱吧~~~~~~~~~~~~~!
  • 由于近期流量激增,小站的ECS没能经的起亲们的访问,本站依然没有盈利,如果各位看如果觉着文字不错,还请看官给小站打个赏~~~~~~~~~~~~~!

深度强化学习专栏 —— 1.研究现状

人工智能 bug404 3080次浏览 0个评论

深度强化学习专栏 —— 1.研究现状   自2013年DeepMind的论文Playing Atari with Deep Reinforcement Learning中提出的DQN(Deep Q-Network)算法实现程序学习到如何打Atari游戏以来,深度强化学习迎来了大发展的时机。  


深度强化学习专栏 —— 1.研究现状   2015年DeepMind发布的Human-level control through deep reinforcement learning论文,提出了改进版的DQN算法,只通过将屏幕像素信息和游戏得分输入给强化学习模型,不断试错与学习后,在不改变模型参数和结构的情况下,模型在Atari 2600中的49个游戏达到了人类专业选手的性能,戳视频。  


深度强化学习专栏 —— 1.研究现状 2016年,Google DeepMind提出的AlphaGo系统,使用深度强化学习技术,以4-1战胜围棋世界冠军李世石,【纪录片|中英双字】AlphaGo世纪对决2017。在之后,DeepMind又陆续提出了AlphaGo Zero战胜了AlphaGO以及AlphaZero战胜了AlphaGO Zero,同时AlphaZero采用自我博弈的方法,不通过人类的棋谱即同时战胜了当时围棋、日本象棋、国际象棋的最强大程序。  


深度强化学习专栏 —— 1.研究现状   2018年OpenAI提出的OpenAI Five系统,在Dota2 5v5游戏中击败人类顶级战队。  


在游戏上取得了惊人的效果,深度强化学习在机器人、自动驾驶、金融、推荐系统等方面都取得了很好的效果。《强化学习 原理与python实现》这本书的作者肖智清指出,强化学习已经成为互联网等行业从业人员的必备知识。   在机器人(机械臂)的应用上,我们来看一下一些精彩的成就。  


深度强化学习专栏 —— 1.研究现状   2018年,Google Brain提出的Qt-Opt机械臂控制系统,在视觉输入方面,只使用RGB摄像头,从采集的580k抓取尝试中使用包含1.2M个参数的DQN算法来学习,最终的效果是对于训练中未出现过的物体,抓取成功率达到96%,戳视频。  


深度强化学习专栏 —— 1.研究现状   2019年,OpenAI提出的Solving Rubik’s Cube with a Robot Hand系统,只通过在仿真中训练机械手旋转魔方,强化学习算法通过自我学习,掌握了单手旋转魔方的能力,且通过sim2real技术,将模型成功的迁移到现实的机械手上,戳视频。  


深度强化学习专栏 —— 1.研究现状   2019年,Google Brain的Andy Zeng团队,通过强化学习算法与常规控制器结合的方式(Residual Reinforcement)设计的机械臂控制系统Tossingbot,使得机械臂可以完成抓取物体和抛掷物体的能力,戳视频。  


深度强化学习在机器人(机械臂)上的成功应用还有很多,没法一一列举完全,感兴趣的小伙伴可以多在谷歌浏览下,我也会经常更新一些好玩的项目。  


深度强化学习专栏 —— 1.研究现状   在推荐系统方面,比较出名的是“虚拟淘宝”,论文Virtual-Taobao: Virtualizing Real-world Online Retail Environment for Reinforcement Learning淘宝使用真实的交易数据生成一个虚拟的淘宝,在虚拟的淘宝中训练强化学习算法完成商品的推荐,使得淘宝的营收额提高2%。京东、美团等也都存在类似的使用强化学习训练的推荐系统。  


强化学习在自动驾驶方面也有很多有趣的项目诞生,鉴于本人从事的是强化学习与机械臂的研究,自动驾驶方面的应用有待于小伙伴们去开发探索一下。  


下表总结了上文提到的研究成果,从表中我们可以看出,主要的研究工作还是集中在Google DeepMind, OpenAI, Google Brain等几家单位,同时,加州伯克利、清华大学、上交等也做了很多出彩的工作,尤其是加州伯克利。这里列举了伯克利人工智能研究所的文章,这里是他们的博客。Researchers and labs in AI,这里列举了更多强化学习方面的著名的实验室和个人,在其主页上都罗列了很多的项目和精彩的文章。  

年份单位项目
2013DeepMindDQN玩Atari游戏
2015DeepMindDQN玩Atari游戏
2016DeepMindAlphaGO打败李世石
2018OpenAIOpenAI Five: Dota2 5v5战胜人类顶级战队
2018阿里巴巴虚拟淘宝
2018Google BrainQt-Opt机械臂抓取
2019Google BrainTossingBot机械臂抓抛系统
2019OpenAI机械手学会单手旋转魔方

   


目前,深度强化学习的研究正在火热期,从一开始的游戏应用,到现在机械臂、机器人、自动驾驶、推荐系统、金融领域等全方位的应用,深度强化学习技术正展示出它独有的魅力。在国内腾讯AI实验室、字节跳动AI实验室、网易伏羲实验室等都招聘强化学习做游戏训练工作,淘宝、京东、美团等招聘强化学习做推荐系统等。   在最新的研究中,强化学习技术也和元学习(Meta Learning)、模仿学习(Imitation Learning)等结合起来,发挥更大的作用,也是一个令人激动的研究领域。   对于学生来说,要做的可以分为两方面: 1)研读论文。深度强化学习领域目前还是一个较新的领域,在应用到具体的项目上时,要求我们对强化学习算法也需精准的掌握,而算法主要来自论文; 2)编程实践。将强化学习算法的理论转换成能够工作的代码,中间还有很长的路要走。对于算法的训练,可以使用自己熟悉的编程语言从头开始写起,对于将强化学习应用到具体的项目上来说,也可以使用已有的强化学习算法库,比如ray、RLLib、Stable Baselines、Spinning Up、ptan等,他们都包含很多强化学习算法,而且经过验证,可以减少很多的算法编程工作。其中ray还是分布式计算框架,可以加速强化学习的训练。  


好了,以上就是本节的分享内容,主要介绍了深度强化学习的研究现状。   后面的内容,我们将从头开始一步一步编程实现两个例子: 1)Flappy Bird游戏。将当前屏幕的像素信息输入给深度强化学习算法,通过不断尝试与学习,将像素信息映射到小鸟的动作,使之能持续的完成游戏。这个游戏大家可以下载到手机上看一下能得多少分,后面我们将通过算法得到无限多分; 2)倒立摆。通过这个例子,可以对比深度强化学习方法相比于常规控制方法的优点和缺点。 来学习一下什么是深度强化学习? 为什么使用深度强化学习? 怎样让深度强化学习算法工作?等几个问题。  
深度强化学习专栏 —— 1.研究现状    
深度强化学习专栏 —— 1.研究现状     注:图1-图8分别出自: 1:论文Playing Atari with Deep Reinforcement Learning  https://arxiv.org/abs/1312.5602 2:Human-level control through deep reinforcement learning    https://www.nature.com/articles/nature14236 3:What does AlphaGo vs Lee Sedol tell us about the interaction between humans and intelligent systems?     https://medium.com/point-nine-news/what-does-alphago-vs-8dadec65aaf 4:OpenAI Five   https://openai.com/blog/openai-five/ 5:QT-Opt: Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation     https://arxiv.org/abs/1806.10293 6:Solving Rubik’s Cube  with a Robot Hand       https://openai.com/blog/solving-rubiks-cube/ 7:TossingBot: Learning to Throw Arbitrary Objects  with Residual Physics   https://tossingbot.cs.princeton.edu/ 8:Virtual-Taobao: Virtualizing Real-world Online Retail Environment for Reinforcement Learning https://arxiv.org/abs/1805.10000


开心洋葱 , 版权所有丨如未注明 , 均为原创丨未经授权请勿修改 , 转载请注明深度强化学习专栏 —— 1.研究现状
喜欢 (0)

您必须 登录 才能发表评论!

加载中……