Movatterモバイル変換

skypenguins id:skypenguins

強化学習に関するskypenguinsのブックマーク (14)

人間を騙してサボるAIたち - ｼﾞｮｲｼﾞｮｲｼﾞｮｲ
AI の能力が上がるにつれて、人間がAI を監督するのが難しくなってきています。本稿では、Anthropic などのグループがICLR 2025 で発表した Language Models Learn to Mislead Humans via RLHF（言語モデルは RLHF を通じて人間を誤解させることを学ぶ）をベースに、この問題について議論します。この論文では、LLM が解けないほど難しいタスク、例えば難しいプログラミングのタスクに直面したとき、「分かりません」と言ったり、一目で分かるような間違ったコードを出力すると BAD ボタンを押されてしまうので、あえて出力を複雑にしたりデバッグしにくいコードを出力し、それによりユーザーは煙に巻かれる・ミスが隠蔽されるといった現象が実験により確認されています。この現象は現実の LLM やAI サービスでも起きている可能性が高いです。自
skypenguins2025/06/25
llm
ai
機械学習
強化学習
リンク
『学マス』AIによってリリース前にレッスンを10億回、人力なら1900年分の検証を実現。バランスブレイカーを効率的に見つけ出すAI学習とデッキ探索【CEDEC2024】 | ゲーム・エンタメ最新情報のファミ通.com
ゲーム・エンタメ最新情報のファミ通.com取材・リポートモバイル・アプリ『学マス』AIによってリリース前にレッスンを10億回、人力なら1900年分の検証を実現。バランスブレイカーを効率的に見つけ出すAI学習とデッキ探索【CEDEC2024】
skypenguins2024/08/22
深層強化学習は黎明期からゲームを研究対象にしてるから割と王道な内容だった、説明文を埋め込みにしてるのは個人的には力技感がある
CEDEC
機械学習
強化学習
アイマス
学マス
リンク
Control as Inference (強化学習とベイズ統計)
The document discusses control as inference in Markov decision processes (MDPs) and partiallyobservable MDPs (POMDPs).It introduces optimality variables that represent whether a state-action pair is optimal or not.It formulates the optimal action-value function Q* and optimal value function V* in terms of these optimality variables and the reward andtransition distributions. Q* is defined as t
skypenguins2020/08/30
機械学習
統計
強化学習
ベイズ統計
リンク
これから強化学習を使いたい人向け、強化学習の基礎と論文紹介 - Qiita
実務でモデルフリー強化学習を活用しようとして勉強したことを書きますドコモの先進技術研究所1年目の勝見と申します。今回は先輩から誘われて、アドベントカレンダーの記事の12日目を担当することになりました。本来は現在行っているデータ分析周りの業務になにか絡めて書けると良いのですが、残念ながらまだオープンにできるようなネタはありませんので、私が業務での実タスクに応用しようと検討を行っている強化学習（モデルフリー）の初学者向けの記事を自身のためのまとめも兼ねて、学習の過程で個人的に面白いなと感じたポイントを織り交ぜながら書こうと思います。マルコフ決定過程 (Markov decision process) このあたりは多くの記事でも取り上げられているため今更感がありますが、強化学習をタスクに適用するために必要となる定式化について説明しておきます。強化学習では取り扱う問題を、エージェントが起こし
skypenguins2019/12/13
強化学習
機械学習
論文
リンク
Using Deep Q-Learning in FIFA 18 to perfect the art of free-kicks
Free-kicks taken by theAI bot, trained through 1000 epochs of the Reinforcement Learning process.In my previous article, I presented anAI bot trained to play the game of FIFA using Supervised Learningtechnique. With this approach, the bot quickly learnt the basics of the game like passing and shooting. However, the training data required to improveit further quickly became cumbersome to gather
skypenguins2018/10/16
deeplearning
強化学習
ゲーム
リンク
FizzBuzz Zero ―― 人類の知識なしでFizzBuzzをマスターする
プログラム問題としてあまりにも有名になってしまったので、今ではあらゆる言語のFizzBuzzがそろっています。面白いですね。深層学習で FizzBuzz この記事の読まれている大半の方は、FizzBuzzを書くのにあまり苦労しないでしょう。しかし、あなたが何かの拍子でプログラムの書き方を忘れてしまったらどうでしょう？心配する必要はありません。そういうときこそAIの出番です。最近は空前の人工知能ブームで、猫も杓子もDeep Learningです。実際、Deep LearningによるFizzBuzzは、いくつも先例があります。 Fizz Buzz in Tensorflow TensorFlowコトハジメ Fizz-Buzz問題 Kerasでfizzbuzz問題を解いてみる実装方法にはバリエーションがありますが、基本的には入力は直前の数値 or 文字列出力は「数値」「Fiz
skypenguins2018/05/11
機械学習
強化学習
深層学習
deeplearning
プログラミング
リンク
PythonとKerasを使ってAlphaZero AIを自作する | POSTD
自己対戦と深層学習でマシンにコネクトフォー（Connect4：四目並べ）の戦略を学習させましょう。この記事では次の3つの話をします。AlphaZeroが人工知能（AI）への大きなステップである2つの理由AlphaZeroの方法論のレプリカを作ってコネクト4のゲームをプレイさせる方法そのレプリカを改良して他のゲームをプラグインする方法Alpha Go→Alpha Go Zero→AlphaZero 2016年3月、DeepmindのAlpha Go（アルファ碁）が、囲碁の18回の世界王者、李世乭（イー・セドル）との五番勝負で、2億人の見守る中、4-1で勝利しました。機械が超人的な囲碁の技を学習したのです。不可能だとか、少なくとも10年間は達成できないと思われていた偉業です。Alpha Go　対　李世乭の第3局このことだけでも驚くべき功績ですが、DeepMindは、2017年10月、
skypenguins2018/03/30
Keras
Python
AlphaGo
強化学習
リンク
https://blog.unity.com/ja/2017/08/22/unity-ai-reinforcement-learning-with-q-learning
skypenguins2018/03/25
強化学習
unity
リンク
技術系専門書（機械学習）の翻訳体験から学んだこと - sotetsuk's tech blog
技術書（訳書）を出版社から初めて刊行したのですが、その過程で経験したことなどを共有することで誰かの役に立てて貰えれば、と言うのがこの記事の趣旨になります。最近では他にも、"CSの定番教科書「Open Data Structures」を日本にも届けたい！"というプロジェクトもあり、こうした草の根の技術書の翻訳活動がもう少し日本にあってもいいのではと個人的に思っています。理系専門書に邦訳が必要なのかどうか（英語で読めばいいでしょ論）は立場が別れるところだとは思いますが、私は基本的に上記プロジェクト内の次の一文と同じ立場です。そして、母国語でこのような入門書が読める、少なくともその選択肢があるのは望ましいことだと考えています。なお、この記事も前の記事に引き続き、2017年に書きかけだった記事の供養です（投稿は2018年の年始）。年末にやりたかったのですが、年始になってしまいました。。。ど
skypenguins2018/02/07
機械学習
強化学習
リンク
速習強化学習を刊行しました - sotetsuk's tech blog
少し（というか結構）前になりますが、2017年9月に「速習強化学習 ―基礎理論とアルゴリズム―」という本を刊行しましたので、簡単に紹介します（Twitter, FBでは告知しましたがブログがまだでした）。GoogleのAlpha Goによるプロ棋士打破は，人工知能がヒトを超えた学習を行った歴史的出来事として認識された。強化学習はここで重要な役割を果たしてているだけでなく，自動運転やロボット制御などの重要な分野への応用も知られ，いま世間の強い関心を集めている。その一方，日本語で強化学習を体系的に学べる教科書は多くはなく，代表的な教科書であるSutton and Barto (1998)とその訳書も出版から20年が経とうとしている。本書はトップ会議のチュートリアルで利用されたり，2010年の出版以降わずか数年で500弱の引用がされたりという事実からも窺えるように，入門書として広く読まれてい
skypenguins2018/02/07
機械学習
強化学習
リンク
【強化学習初心者向け】シンプルな実装例で学ぶSARSA法およびモンテカルロ法【CartPoleで棒立て：1ファイルで完結】 - Qiita
※2018年06月23日追記PyTorchを使用した最新版の内容を次の書籍にまとめました。つくりながら学ぶ! 深層強化学習 ~PyTorchによる実践プログラミング~ 18年6月28日発売強化学習の代表的な手法である「SARSA法」と「モンテカルロ法」の、実装コード紹介と解説を行います学習する対象には、強化学習の「Hello World！」的存在である「CartPole」を使用します。概要強化学習の代表的な手法であるSARSA法、モンテカルロ法の2通りを実装・解説します。 ※ディープラーニングは使用しません。古典的？な強化学習です。・どちらも150行程度の短いプログラムです・外部の強化学習ライブラリなどを使用せず、自力で組んでいます・コメント多めです・保守性よりも、初学者が分かりやすいことを優先してコードを書いています【対象者】・Qiitaの強化学習の記事「ゼロから
skypenguins2018/01/09
機械学習
強化学習
リンク
強化学習入門～これから強化学習を学びたい人のための基礎知識～ - Platinum Data Blog by BrainPad ブレインパッド
本記事は、当社オウンドメディア「Doors」に移転しました。約5秒後に自動的にリダイレクトします。こんにちは。アナリティクスサービス本部の仲田です。本日は、「強化学習」について、その基礎的なアルゴリズムと、簡単なデモをご紹介します。強化学習とは機械学習の手法のひとつ (画像はhttps://www.engadget.com/2016/03/12/watch-alpha go-vs-lee-sedol-round-3-live-right-now/より) 「強化学習（Reinforcement Learning）」と呼ばれる学問分野をご存知でしょうか。機械学習にはさまざまな分類方法がありますが、「教師付き学習（Supervised Learning）」「教師なし学習（Unsupervised Learning）」「強化学習」という3種類に分ける考え方があります。この考え方では、強化
skypenguins2018/01/09
強化学習
機械学習
リンク
ゼロからDeepまで学ぶ強化学習 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? ロボットから自動運転車、はては囲碁・将棋といったゲームまで、昨今多くの「AI」が世間をにぎわせています。その中のキーワードとして、「強化学習」というものがあります。そうした意味では、数ある機械学習の手法の中で最も注目されている(そして誇張されている・・・)手法ともいえるかもしれません。今回はその強化学習という手法について、基礎から最近目覚ましい精度を出しているDeep Q-learning(いわゆるドキュン、DQNです)まで、その発展の流れと仕組みについて解説をしていきたいと思います。本記事の内容をベースに、ハンズオンイベントを開
skypenguins2018/01/09
機械学習
DeepLearning
深層学習
強化学習
リンク
バンディットアルゴリズムことはじめ - Qiita
巷で話題のバンディットアルゴリズムを、ネット上の素晴らしい資料を参考にしたり引用したりしながら、おおまかなイメージがつかめるようにまとめていきます。導入：タカシ君のお年玉 20XX年、元旦。タカシ君は、この冬休みずっと、コインに念を送って表を出す練習に励んできました。というのも、コインが5種類(A,B,C,D,E)あるが、どうやらそれぞれ形が違うようで、表が出る確率が違う（が変化はしない）「1回ごとにコインを1つ選んで、50回コイン投げていいよ」と両親に言われている表が出た回数×1000円をお年玉としてもらえるので、なんとかして表が出る回数を最大にしたいのです。冗談はさておき、タカシ君は、どういう方針でコインを選ぶのがいいのでしょうか。同じコインを投げ続ける？「コインB、君に決めた！」全てのコインを均等に投げる？「平等にコインAを10回、Bを10回、...」これま
skypenguins2018/01/09
機械学習
バンディット
強化学習
リンク
1