Movatterモバイル変換

petite_blue id:petite_blue

強化学習に関するpetite_blueのブックマーク (54)

誰でもわかる強化学習
本資料は，東京大学松尾研究室で開催された強化学習セミナーの講義資料をもとに，講演目的でより初学者向けに内容を調整したものです．特に強化学習で最も基本的かつ最重要手法であるQ学習や，それの深層強化学習版のDQN（Deep Q-Network）を中心に解説しています. 昨今，ChatGPT等の大規模言語モ…
petite_blue2023/11/25
強化学習
ai
リンク
強化学習の基礎まとめ - Qiita
こんにちは、すきにーです。強化学習の基礎的な手法についてまとめました。はじめにこの記事では以下を説明しています動的計画法モンテカルロ法 TD法(SARSA、Q学習) コードはゼロから作るDeepLearning4 強化学習編に載っているものを参考にしています。参考記事深層強化学習アルゴリズムまとめゼロからDeepまで学ぶ強化学習これから強化学習を勉強する人のための「強化学習アルゴリズム・マップ」と、実装例まとめ今さら聞けない強化学習（1）：状態価値関数とBellman方程式全体図動的計画法動的計画法は、エージェントが置かれた環境のモデルがすでに分かっているとき最適な方策を見つけるアプローチです。方策反復法と価値反復法があります。環境のモデルが分かっていることは少ないので、あまり使われません。モンテカルロ法動的計画法では環境のモデルが完全にわかっている状態
petite_blue2023/05/14
強化学習
リンク
RLHF (人間のフィードバックからの強化学習) の図解｜npaka
以下の記事が面白かったので、軽く要約しました。・Illustrating Reinforcement Learning from Human Feedback (RLHF) 1. はじめに言語モデルは、人間の入力プロンプトから多様で説得力のあるテキストを生成することで、ここ数年、目覚ましい成果をあげています。しかし、「良い」テキストかどうかは、主観的で文脈に依存するため、定義することが困難です。「良い」テキストを生成するための損失関数の設計は難しく、ほとんどの言語モデルは、まだ単純な次のトークン予測損失（クロスエントロピーなど）で学習しています。この損失自体の欠点を補うために、BLEUやROUGEなどの人間の好みをよりよく捉えるように設計された指標も定義されています。しかしこれらは、能力測定において損失関数より適してますが、生成されたテキストを単純なルールで参照比較するため、制限があり
petite_blue2023/04/29
llm
強化学習
リンク
Gymnasium Documentation
AnAPI standard for reinforcement learning with a diverse collection of reference environments Gymnasium is a maintained fork ofOpenAI’s Gym library. The Gymnasium interface issimple,pythonic, and capable of representing general RL probl ems, and has a migrationguide for old Gym environments: import gymnasium as gym # Initialise the environment env = gym.make("LunarLander-v3", render_mode="huma
petite_blue2023/02/09
強化学習
リンク
The Best Tools for Reinforcement Learning in Python You Actually Want to Try
petite_blue2023/02/09
強化学習
リンク
Stable Baselines入門 / Stable Baselinesの概要｜npaka
1. Stable Baselinesとは「Stable Baselines」は「OpenAI Baselines」をベースにした、強化学習アルゴリズムの実装セットの改良版です。「OpenAI Baselines」は、OpenAIが提供する強化学習アルゴリズムの実装セットです。これら学習アルゴリズムは正しく機能し、非常に役立つものでした。しかしこれをベースにカスタマイズして使う場合には、「コメントの欠如」「共通のコードスタイルなし」「多数重複」なソースコードのため、かなりの格闘が必要になりました。そこで、「OpenAI Baselines」をフォークし、大規模なリファクタリングを行い使いやすくしたものが、「Stable Baselines」になります。 2. Stable Baselinesの特徴「Stable Baselines」の「OpenAI Baselines」と比べた時の特徴
petite_blue2023/02/09
強化学習
リンク
Advantage Actor Critic Tutorial: minA2C | Towards Data Science
petite_blue2023/02/02
強化学習
リンク
Deriving Policy Gradients and Implementing REINFORCE
Policy gradient methods are ubiquitous in model free reinforcement learning algorithms — they appear frequently in reinforcement learning algorithms, especially so in recent publications. The policy gradient method is also the “actor” part of Actor-Critic methods (check out my post on Actor Critic Methods), so understandingit is foundational to studying reinforcement learning! Here, we aregoing
petite_blue2023/02/02
強化学習
リンク
GitHub - pocokhc/simple_distributed_rl: Simple Distributed Reinforcement Learning Framework（シンプルな分散強化学習フレームワーク）
petite_blue2023/01/21
強化学習
リンク
自作中のシンプルな分散強化学習フレームワークの紹介 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 今までいろいろな強化学習アルゴリズムを実装してきましたが、以下の問題を毎回感じていました。アルゴリズム毎に環境と学習のための実装が必要 (gym等は環境側のインタフェースまでは提供されているが、学習を含めた実装は提供されていない) アルゴリズムの学習フローがそもそも複雑になりやすい分散学習まで考えると更に大変アルゴリズムと環境が分離しきれず結構依存する Atariの画像の前処理とその入力に依存したニューラルネットワークの設計アクションが離散値と連続値の場合によるアルゴリズム側の違いよくある数フレーム入力やフレームスキップ、実行
petite_blue2023/01/21
強化学習
リンク
@pocokhcのマイページ - Qiita
posted articles:Python:86%機械学習:75%強化学習:53%SImpleDistributedRL:20%Keras:17%
petite_blue2023/01/21
強化学習
リンク
第7回今更だけど基礎から強化学習を勉強する DDPG/TD3編(連続行動空間) - Qiita
今回はDDPGを実装してみました。第6回　PPO編第8回　SAC編 ※ネット上の情報をかき集めて自分なりに実装しているので正確ではない可能性がある点はご注意ください ※ライブラリはTensowflow2.0(+Keras)を使っています。コード全体本記事で作成したコードは以下です。Google Colaboratory 追記：自作フレームワークを作成しています。そちらにも実装があります。 DDPG(Deep Deterministic Policy Gradient) DPGは連続行動空間を制御するために考案されたアルゴリズムで、Actor-Criticなモデルを用いて行動価値と方策を学習しますが、方策勾配法を使わずに学習するというちょっと変わった手法になります。 DPGにディープラーニングを適用した手法がDDPGです。参考 DDPGでPendulum-v0（強化学習, tens
petite_blue2023/01/21
強化学習
リンク
OpenAI Gym 入門 - Qiita
概要強化学習のシミュレーション環境「OpenAI Gym」について、簡単に使い方を記載しました。類似記事はたくさんあるのですが、自分の理解のために投稿しました。強化学習とはある環境において、自律エージェントが状況を観測しながら行動することを繰り返し試行し、目的を達成するための最適な意思決定を学習する、機械学習の方法。教師あり学習とは違い、環境から得られる報酬を元に、行動の良し悪しを評価する。 TheGo gopher was designed by Renée French.OpenAI Gym とは人工知能を研究する非営利企業OpenAIが作った、強化学習のシミュレーション用プラットフォーム。オープンソース https://github.com/openai/gymOpenAI Gym インストール方法１. 基本パッケージのインストール
petite_blue2023/01/21
強化学習
リンク
【2025】OpenAI Gym（強化学習用ライブラリ）の使い方！例題を画像付きで徹底解説 | DX/AI研究所
強化学習用シミュレーションライブラリ「OpenAI Gym」とは、強化学習を学ぶためのプラットフォームです。さまざまなゲームをプレイしながら、強化学習を学ぶことができます。今回は、強化学習用シミュレーションライブラリ「OpenAI Gym」の使い方について徹底解説します！OpenAI Gymとは？強化学習用シミュレーションライブラリ「OpenAI Gym」とは、イーロン・マスクらが率いる人工知能（AI）を研究する非営利団体「OpenAI」が提供するプラットフォームです。 CartPole問題やブロック崩しなど、いくつかの環境（ゲーム）が用意されており、強化学習を学ぶことができます。シミュレーション環境と、強化学習アルゴリズム間のインタフェースを確立されているため、初心者でも強化学習を学びやすくなっています。OpenAI Gymの機能「OpenAI GYM」はOpenGLを利用し
petite_blue2023/01/21
強化学習
リンク
強化学習の学習アルゴリズムの分類｜npaka
「強化学習」の学習アルゴリズムの分類方法である「モデルベース / モデルフリー」と「オンポリシー / オフポリシー」を軽くまとめます。 1. モデルベース / モデルフリー「強化学習アルゴリズム」の最も重要な分類方法の1つは、エージェントが「環境モデル」を使用する(または学習できる)かどうかです。「環境モデル」は、状態遷移と報酬を予測する関数を意味します。環境モデルを使用するアルゴリズムを「モデルベース」(Model-Based)、使用しないアルゴリズムを「モデルフリー」(Model-free)と呼びます。 ◎モデルベースモデルベースの利点は、エージェントが先を考え、可能な選択肢の範囲で何が起こるかを見て、行動を決定できることです。エージェントは、事前に計画した結果を学習済みポリシーに抽出できます。このアプローチで特に有名な例は「AlphaZero」(MCTS)です。これが機能すると、モ
petite_blue2023/01/21
強化学習
リンク
オフライン強化学習② Decision Transformerの系譜 - どこから見てもメンダコ
Decision transoformer (2021)は、自然言語モデルGPTにおける次トークン予測の枠組みでオフライン強化学習タスクを解けることを示し新たなパラダイムをもたらしました。最近ではDeepMindの超汎用エージェントGATOなどもDecision Transf ormerベースのアーキテクチャを採用しており、その重要性が増しています。 Decision Transf ormer とはオフライン強化学習の新たなパラダイム言語を生成するように行動を生成する自然言語風アプローチのメリット条件付き生成：Reward conditioned Sequence modelingの系譜 Multi-Game Decision Transoformer（NeurIPS2022） Uni[Mask]（NeurIPS2022）： MaskedLMの導入 GATO（2022）：超汎用エー
petite_blue2023/01/10
強化学習
transformer
gpt
リンク
Offline Reinforcement Learning
チュートリアル @ 強化学習若手の会 https://young-reinforcement.github.io/ 解説記事（Qiita） https://qiita.com/aiueola/it ems/90f635200d808f904daf
petite_blue2021/03/29
強化学習
リンク
GitHub - keiohta/tf2rl: TensorFlow2 Reinforcement Learning
You signed in with another tab or window. Reload to refresh yoursession. You signed out in another tab or window. Reload to refresh yoursession. Youswitched accounts on another tab or window. Reload to refresh yoursession. Dismiss alert
petite_blue2020/10/27
強化学習
機械学習
TensorFlow
リンク
AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃
AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃 Updated by 清水亮 on October 8, 2020, 11:13 am JST 清水亮 ryo_shimizu 新潟県長岡市生まれ。1990年代よりプログラマーとしてゲーム業界、モバイル業界などで数社の立ち上げに関わる。現在も現役のプログラマーとして日夜AI開発に情熱を捧げている。 Tweet 「最近のAIがすごい」と言われてからもう6年ほどが経過した。なかでも人目を引いたのは、なんといっても2016年のAlpha Goだろう。最難関ゲームの一つと言われる囲碁において、人間のトップ棋士に対しAIが圧勝したのである。これは「深層強化学習」というAIだが、実際のところ、「深層強化学習」を実用的に利用した例はまだ少ない。多くのAIベンチャーやAIベンダーが扱う「AI」技術は、古典的な統計解析か、
petite_blue2020/10/09
強化学習
機械学習
リンク
自分が読んだ強化学習の資料達 - 下町データサイエンティストの日常
こんにちは。nino_piraです。先日、強化学習の資料の引用ツイートをしましたら、それなりに伸びたので、「もしかして、みんな強化学習に興味ある！？」と思い自分が読んだ&好きな資料をまとめてます。また、ブログを書いているうちに「何を持って基礎とするか」などカテゴライズも自分の中でも行方不明になっていましたので、色々思うところはあると思いますが、暖かい目で読んで頂ければ幸いです。。。。あくまでも私の経験強化学習基礎系 [Qiita] DQN（Deep QNetwork）を理解したので、Gopherくんの図を使って説明 [書籍]これからの強化学習 [pdf] (小南さん作成) 強化学習入門 [pdf] (通称) Sutton本第2版 [書籍]機械学習スタートアップシリーズ　Pythonで学ぶ強化学習 [ブログ]強化学習もう少し強化学習を詳しく知りたい系の人へ [書籍]速習強化学
petite_blue2020/02/01
強化学習
リンク
123次のページ