强化学习
2019-12-24 10:44:02 3 举报
AI智能生成
关于人工智能技术中强化学习的学习笔记
作者其他创作
大纲/内容
典型应用
围棋比赛
直升机特技动作
投资管理
机器人行走
玩游戏
直升机特技动作
投资管理
机器人行走
玩游戏
与监督学习和无监督学习的区别
不需要标签,但是有奖励,和环境互动,从奖励中学习
强化学习具有平衡“探索”+“经验”的特点,exploration & exploitation
组成要素
智能体(Agent)
环境(Environment)
动作(Action)
奖励(Reward)
分类
Model-Free RL
Value-Based RL
Q-learning
Sarsa
DQN
发展
Simple DQN
Double DQN
Prioritized Experience Replay DQN
Dueling DQN
输入是状态s,输出为每个动作对应的Q函数值
Policy-Based RL
Policy Gradients
输入为状态s,输出为下一步采取的action概率分布
以上两者结合
Actor-Critic
Critic根据当前策略,最优化价值函数, Actor在Critic建议的价值函数下,最优化策略函数
发展
MC AC
TD AC
DDPG
Deep Deterministic Policy Gradient
A3C
Asynchronous Advantage Actor-Critic
PPO/DPPO
Distributed Proximal Policy Optimization
Model-based RL
Dyna & Dyna-2
1.预先已知模型,直接RL强化学习
2.从现实先学出一个model,再基于这个model生成样本,再进行RL强化学习(比如走围棋)
2.从现实先学出一个model,再基于这个model生成样本,再进行RL强化学习(比如走围棋)
其他分类方式
单步更新 & 回合更新
回合更新:Monte-Carlo update
单步更新:Temporal-Difference update,更有效率, Q Learning, Sarsa
在策略更新 & 离策略更新
On-Policy从工作中学习,从实际经验中抽样学习策略,即学习之后发现最优的action是啥,下一步就采用这样的action,
例如,Sarsa,Policy-Gradients,Actor-Critic
例如,Sarsa,Policy-Gradients,Actor-Critic
Off-Policy站在别人肩膀上,经验可能是通过另外一个策略采样得到,即你计算最优值和你实际采用的action可以不一样,
例如,Q-Learning,DQN
例如,Q-Learning,DQN
0 条评论
下一页