Movatterモバイル変換


[0]ホーム

URL:


PPTX, PDF4,703 views

Reinforcement Learning(方策改善定理)

強化学習の基礎方策改善定理の証明

Embed presentation

Downloaded 29 times
Copyright©2016 NTT corp. All Rights Reserved.強化学習の基礎NTT研究所 山田真徳
Copyright©2016 NTT corp. All Rights Reserved. 2教師あり学習 教師なし学習 強化学習機械学習は大きくわけて3つラベルがついていないものの性質を調べる(基本はクラスタリング)ラベル(教師データ)があるもの使い教師データと同じ写像を見つける(基本は回帰か分類)f:x→yy=f(x)本質は教師データ{x,y}からfを決める問題 距離などを参考に色(ラベル)がわからない状態でクラスタイリング良さの方向だけを与えておいて、環境を探索して良い方向に行くように教師を自ら生成して学習する行動の最適化問題参考画像https://qiita-image-store.s3.amazonaws.com/0/72529/dc77a4fe-85a1-a69e-e0e3-571e2e04a33f.png
Copyright©2016 NTT corp. All Rights Reserved. 3目的強化学習(Q学習)の基礎となる方策改善定理を理解する
Copyright©2016 NTT corp. All Rights Reserved. 4方針:未来の報酬期待値が最大になるように学習する強化学習目的:行動選択の最適化教師あり学習とも(普通の)教師なし学習とも違う環境探索型の学習
Copyright©2016 NTT corp. All Rights Reserved. 5DQN(Deep Q NeuralNetwork)学習:戦略を学ぶ例
Copyright©2016 NTT corp. All Rights Reserved. 6環境と相互作用がある学習良いという方向を決めて教師を自ら生成①行動選択①②環境の更新②③③報酬決定 状態:行動:報酬:方策:これを学習したい!環境で決まるユーザーが与える状態のマルコフ性を仮定
Copyright©2016 NTT corp. All Rights Reserved. 7マルコフ決定過程(MDP):アクションつきマルコフ過程のことマルコフ過程:1つ前の状態にしかよらないという近似近似マルコフ決定過程
Copyright©2016 NTT corp. All Rights Reserved. 8Rの期待値Q関数:Rをその場の状態と行動で決める定義よりVとQの関係を明確にV関数:Rをその場の状態だけで決めるπは固定
Copyright©2016 NTT corp. All Rights Reserved. 9手順1. πに従い確率的に行動 を決定2. により が確率的に決定3. 現在の報酬が決定4. 将来の報酬の合計 を計算5. 将来の報酬が最大になるようにπを修正6. 2に戻るポイント Q, 6どうやってRからπを修正するか?γ:割引率A, ε-greedy法というものを使えばいい
ε-greedy法基本的には常にQを最大にするaを選びなさいただしεの確率で他のも試しなさい利用探索
Copyright©2016 NTT corp. All Rights Reserved. 11以下を示したいQを計算してε-greedyでπを修正すること⇔Rの最大とする方策π*を求めること
良い方策πをVから定義する最適状態関数V*を定義πの大小関係を定義すると定義の時のみ全ての において最適方策π*は最大のπと定義最適行動価値関数Q*を定義
Copyright©2016 NTT corp. All Rights Reserved. 13①方策改善定理(改善の保証)次のターンのみaをπ’で取る②ε-greedyが方策改善になっている以下の2つを示せばよい
Copyright©2016 NTT corp. All Rights Reserved. 14①方策改善定理(改善の保証)後で示すVの漸化式方程式の一般式になっている(報酬の収束を仮定し最後は と の違いは効かない)
Copyright©2016 NTT corp. All Rights Reserved. 15証明MDP便利な表現
Copyright©2016 NTT corp. All Rights Reserved. 16②ε-greedyも方策改善になっている平均化された最大値≧合計1になる非負の重み付き平均´
Copyright©2016 NTT corp. All Rights Reserved. 17Atari games(57個)半分以上のゲームで人間を超えたDQN(NIPS 2013)←Qを関数近似で汎化V. Mnih et al., "Playing atari with deep reinforcement learning”DQN (Nature 2015) ←NIPS DQNのθの更新を改良V. Mnih et al., "Human-level control through deep reinforcement learning”Double DQN (arXiv:1509.06461 [cs])←本質的な改良Hado van Hasselt et al., “Deep Reinforcement Learning with Double Q-learning”Double Q-learning(NIPS 2010)←理解に役立つHado van Hasselt et al., “Double Q-learning”Dueling Network(2016)←ネットワークを工夫ZiyuWang et al., “Dueling Network Architectures for Deep Reinforcement Learning”FRMQN(2016)←いい感じで記憶を持たせるJunhyuk Oh et al., “Control of Memory, Active Perception, and Action in Minecraft”Intrinsic Motivation (2016)←探索に重みをつけるっぽいMarc G. Bellemare et al., “Unifying Count-Based Exploration and Intrinsic Motivation”時間が余れば最近のDQN

Recommended

PDF
多様な強化学習の概念と課題認識
PDF
強化学習その2
 
PPTX
強化学習2章
PDF
画像生成・生成モデル メタサーベイ
PDF
coordinate descent 法について
PDF
[Dl輪読会]introduction of reinforcement learning
PPTX
強化学習アルゴリズムPPOの解説と実験
PDF
POMDP下での強化学習の基礎と応用
PDF
全力解説!Transformer
PDF
最適輸送入門
PPTX
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PPTX
カルマンフィルタ入門
PPTX
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
PDF
計算論的学習理論入門 -PAC学習とかVC次元とか-
PDF
機械学習モデルの判断根拠の説明(Ver.2)
PDF
画像認識の初歩、SIFT,SURF特徴量
PPTX
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
PPTX
SSII2020SS: 微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
 
PDF
最適輸送の計算アルゴリズムの研究動向
 
PPTX
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
 
PDF
自己教師学習(Self-Supervised Learning)
PDF
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
PPTX
Triplet Loss 徹底解説
PPTX
[DL輪読会]逆強化学習とGANs
PDF
深層強化学習でマルチエージェント学習(前篇)
PDF
PCAの最終形態GPLVMの解説
PPTX
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
PDF
Introduction to Prioritized Experience Replay
PDF
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
 
PPTX
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)

More Related Content

PDF
多様な強化学習の概念と課題認識
PDF
強化学習その2
 
PPTX
強化学習2章
PDF
画像生成・生成モデル メタサーベイ
PDF
coordinate descent 法について
PDF
[Dl輪読会]introduction of reinforcement learning
PPTX
強化学習アルゴリズムPPOの解説と実験
PDF
POMDP下での強化学習の基礎と応用
多様な強化学習の概念と課題認識
強化学習その2
 
強化学習2章
画像生成・生成モデル メタサーベイ
coordinate descent 法について
[Dl輪読会]introduction of reinforcement learning
強化学習アルゴリズムPPOの解説と実験
POMDP下での強化学習の基礎と応用

What's hot

PDF
全力解説!Transformer
PDF
最適輸送入門
PPTX
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PPTX
カルマンフィルタ入門
PPTX
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
PDF
計算論的学習理論入門 -PAC学習とかVC次元とか-
PDF
機械学習モデルの判断根拠の説明(Ver.2)
PDF
画像認識の初歩、SIFT,SURF特徴量
PPTX
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
PPTX
SSII2020SS: 微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
 
PDF
最適輸送の計算アルゴリズムの研究動向
 
PPTX
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
 
PDF
自己教師学習(Self-Supervised Learning)
PDF
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
PPTX
Triplet Loss 徹底解説
PPTX
[DL輪読会]逆強化学習とGANs
PDF
深層強化学習でマルチエージェント学習(前篇)
PDF
PCAの最終形態GPLVMの解説
PPTX
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
PDF
Introduction to Prioritized Experience Replay
全力解説!Transformer
最適輸送入門
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
カルマンフィルタ入門
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
計算論的学習理論入門 -PAC学習とかVC次元とか-
機械学習モデルの判断根拠の説明(Ver.2)
画像認識の初歩、SIFT,SURF特徴量
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
SSII2020SS: 微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
 
最適輸送の計算アルゴリズムの研究動向
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
 
自己教師学習(Self-Supervised Learning)
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Triplet Loss 徹底解説
[DL輪読会]逆強化学習とGANs
深層強化学習でマルチエージェント学習(前篇)
PCAの最終形態GPLVMの解説
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Introduction to Prioritized Experience Replay

Similar to Reinforcement Learning(方策改善定理)

PDF
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
 
PPTX
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
PDF
強化学習とは (MIJS 分科会資料 2016/10/11)
DOCX
レポート深層学習Day4
PPTX
1017 論文紹介第四回
PDF
強化学習の基礎的な考え方と問題の分類
PPTX
[Oracle Code Night] Reinforcement Learning Demo Code
PDF
Study aiラビットチャレンジ 深層学習Day4
PPTX
深層強化学習入門
PPTX
RL_chapter1_to_chapter4
PPTX
データサイエンス勉強会~機械学習_強化学習による最適戦略の学習
PDF
Computational Motor Control: Reinforcement Learning (JAIST summer course)
PDF
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
PDF
「これからの強化学習」勉強会#1
PDF
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
PPTX
Deep reinforcement learning for imbalanced classification
PDF
人工知能2018 強化学習の応用
PPTX
機械学習と深層学習入門
PPTX
強化学習1章
PDF
強化学習メモスライド
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習とは (MIJS 分科会資料 2016/10/11)
レポート深層学習Day4
1017 論文紹介第四回
強化学習の基礎的な考え方と問題の分類
[Oracle Code Night] Reinforcement Learning Demo Code
Study aiラビットチャレンジ 深層学習Day4
深層強化学習入門
RL_chapter1_to_chapter4
データサイエンス勉強会~機械学習_強化学習による最適戦略の学習
Computational Motor Control: Reinforcement Learning (JAIST summer course)
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
「これからの強化学習」勉強会#1
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
Deep reinforcement learning for imbalanced classification
人工知能2018 強化学習の応用
機械学習と深層学習入門
強化学習1章
強化学習メモスライド

Reinforcement Learning(方策改善定理)

  • 1.
    Copyright©2016 NTT corp.All Rights Reserved.強化学習の基礎NTT研究所 山田真徳
  • 2.
    Copyright©2016 NTT corp.All Rights Reserved. 2教師あり学習 教師なし学習 強化学習機械学習は大きくわけて3つラベルがついていないものの性質を調べる(基本はクラスタリング)ラベル(教師データ)があるもの使い教師データと同じ写像を見つける(基本は回帰か分類)f:x→yy=f(x)本質は教師データ{x,y}からfを決める問題 距離などを参考に色(ラベル)がわからない状態でクラスタイリング良さの方向だけを与えておいて、環境を探索して良い方向に行くように教師を自ら生成して学習する行動の最適化問題参考画像https://qiita-image-store.s3.amazonaws.com/0/72529/dc77a4fe-85a1-a69e-e0e3-571e2e04a33f.png
  • 3.
    Copyright©2016 NTT corp.All Rights Reserved. 3目的強化学習(Q学習)の基礎となる方策改善定理を理解する
  • 4.
    Copyright©2016 NTT corp.All Rights Reserved. 4方針:未来の報酬期待値が最大になるように学習する強化学習目的:行動選択の最適化教師あり学習とも(普通の)教師なし学習とも違う環境探索型の学習
  • 5.
    Copyright©2016 NTT corp.All Rights Reserved. 5DQN(Deep Q NeuralNetwork)学習:戦略を学ぶ例
  • 6.
    Copyright©2016 NTT corp.All Rights Reserved. 6環境と相互作用がある学習良いという方向を決めて教師を自ら生成①行動選択①②環境の更新②③③報酬決定 状態:行動:報酬:方策:これを学習したい!環境で決まるユーザーが与える状態のマルコフ性を仮定
  • 7.
    Copyright©2016 NTT corp.All Rights Reserved. 7マルコフ決定過程(MDP):アクションつきマルコフ過程のことマルコフ過程:1つ前の状態にしかよらないという近似近似マルコフ決定過程
  • 8.
    Copyright©2016 NTT corp.All Rights Reserved. 8Rの期待値Q関数:Rをその場の状態と行動で決める定義よりVとQの関係を明確にV関数:Rをその場の状態だけで決めるπは固定
  • 9.
    Copyright©2016 NTT corp.All Rights Reserved. 9手順1. πに従い確率的に行動 を決定2. により が確率的に決定3. 現在の報酬が決定4. 将来の報酬の合計 を計算5. 将来の報酬が最大になるようにπを修正6. 2に戻るポイント Q, 6どうやってRからπを修正するか?γ:割引率A, ε-greedy法というものを使えばいい
  • 10.
  • 11.
    Copyright©2016 NTT corp.All Rights Reserved. 11以下を示したいQを計算してε-greedyでπを修正すること⇔Rの最大とする方策π*を求めること
  • 12.
  • 13.
    Copyright©2016 NTT corp.All Rights Reserved. 13①方策改善定理(改善の保証)次のターンのみaをπ’で取る②ε-greedyが方策改善になっている以下の2つを示せばよい
  • 14.
    Copyright©2016 NTT corp.All Rights Reserved. 14①方策改善定理(改善の保証)後で示すVの漸化式方程式の一般式になっている(報酬の収束を仮定し最後は と の違いは効かない)
  • 15.
    Copyright©2016 NTT corp.All Rights Reserved. 15証明MDP便利な表現
  • 16.
    Copyright©2016 NTT corp.All Rights Reserved. 16②ε-greedyも方策改善になっている平均化された最大値≧合計1になる非負の重み付き平均´
  • 17.
    Copyright©2016 NTT corp.All Rights Reserved. 17Atari games(57個)半分以上のゲームで人間を超えたDQN(NIPS 2013)←Qを関数近似で汎化V. Mnih et al., "Playing atari with deep reinforcement learning”DQN (Nature 2015) ←NIPS DQNのθの更新を改良V. Mnih et al., "Human-level control through deep reinforcement learning”Double DQN (arXiv:1509.06461 [cs])←本質的な改良Hado van Hasselt et al., “Deep Reinforcement Learning with Double Q-learning”Double Q-learning(NIPS 2010)←理解に役立つHado van Hasselt et al., “Double Q-learning”Dueling Network(2016)←ネットワークを工夫ZiyuWang et al., “Dueling Network Architectures for Deep Reinforcement Learning”FRMQN(2016)←いい感じで記憶を持たせるJunhyuk Oh et al., “Control of Memory, Active Perception, and Action in Minecraft”Intrinsic Motivation (2016)←探索に重みをつけるっぽいMarc G. Bellemare et al., “Unifying Count-Based Exploration and Intrinsic Motivation”時間が余れば最近のDQN

[8]ページ先頭

©2009-2025 Movatter.jp