AI の能力が上がるにつれて、人間がAI を監督するのが難しくなってきています。本稿では、Anthropic などのグループがICLR 2025 で発表した Language Models Learn to Mislead Humans via RLHF(言語モデルは RLHF を通じて人間を誤解させることを学ぶ)をベースに、この問題について議論します。 この論文では、LLM が解けないほど難しいタスク、例えば難しいプログラミングのタスクに直面したとき、「分かりません」と言ったり、一目で分かるような間違ったコードを出力すると BAD ボタンを押されてしまうので、あえて出力を複雑にしたりデバッグしにくいコードを出力し、それによりユーザーは煙に巻かれる・ミスが隠蔽されるといった現象が実験により確認されています。 この現象は現実の LLM やAI サービスでも起きている可能性が高いです。自

The document discusses control as inference in Markov decision processes (MDPs) and partiallyobservable MDPs (POMDPs).It introduces optimality variables that represent whether a state-action pair is optimal or not.It formulates the optimal action-value function Q* and optimal value function V* in terms of these optimality variables and the reward andtransition distributions. Q* is defined as t
実務でモデルフリー強化学習を活用しようとして勉強したことを書きます ドコモの先進技術研究所1年目の勝見と申します。今回は先輩から誘われて、アドベントカレンダーの記事の12日目を担当することになりました。本来は現在行っているデータ分析周りの業務になにか絡めて書けると良いのですが、残念ながらまだオープンにできるようなネタはありませんので、私が業務での実タスクに応用しようと検討を行っている強化学習(モデルフリー)の初学者向けの記事を自身のためのまとめも兼ねて、学習の過程で個人的に面白いなと感じたポイントを織り交ぜながら書こうと思います。 マルコフ決定過程 (Markov decision process) このあたりは多くの記事でも取り上げられているため今更感がありますが、強化学習をタスクに適用するために必要となる定式化について説明しておきます。 強化学習では取り扱う問題を、エージェントが起こし

Free-kicks taken by theAI bot, trained through 1000 epochs of the Reinforcement Learning process.In my previous article, I presented anAI bot trained to play the game of FIFA using Supervised Learningtechnique. With this approach, the bot quickly learnt the basics of the game like passing and shooting. However, the training data required to improveit further quickly became cumbersome to gather

プログラム問題としてあまりにも有名になってしまったので、今ではあらゆる言語のFizzBuzzがそろっています。面白いですね。 深層学習 で FizzBuzz この記事の読まれている大半の方は、FizzBuzzを書くのにあまり苦労しないでしょう。 しかし、あなたが何かの拍子でプログラムの書き方を忘れてしまったらどうでしょう? 心配する必要はありません。そういうときこそAIの出番です。 最近は空前の人工知能ブームで、猫も杓子もDeep Learningです。 実際、Deep LearningによるFizzBuzzは、いくつも先例があります。 Fizz Buzz in Tensorflow TensorFlowコトハジメ Fizz-Buzz問題 Kerasでfizzbuzz問題を解いてみる 実装方法にはバリエーションがありますが、基本的には 入力は直前の数値 or 文字列 出力は「数値」「Fiz

自己対戦と深層学習でマシンにコネクトフォー(Connect4:四目並べ)の戦略を学習させましょう。 この記事では次の3つの話をします。AlphaZeroが人工知能(AI)への大きなステップである2つの理由AlphaZeroの方法論のレプリカを 作って コネクト4のゲームをプレイさせる方法 そのレプリカを改良して他のゲームをプラグインする方法AlphaGo→AlphaGo Zero→AlphaZero 2016年3月、DeepmindのAlphaGo(アルファ碁)が、囲碁の18回の世界王者、李世乭(イー・セドル)との五番勝負で、2億人の見守る中、4-1で勝利しました。機械が超人的な囲碁の技を学習したのです。不可能だとか、少なくとも10年間は達成できないと思われていた偉業です。AlphaGo 対 李世乭の第3局 このことだけでも驚くべき功績ですが、DeepMindは、2017年10月、

技術書(訳書)を出版社から初めて刊行したのですが、その過程で経験したことなどを共有することで誰かの役に立てて貰えれば、と言うのがこの記事の趣旨になります。最近では他にも、"CSの定番教科書「Open Data Structures」を日本にも届けたい!"というプロジェクトもあり、こうした草の根の技術書の翻訳活動がもう少し日本にあってもいいのではと個人的に思っています。理系専門書に邦訳が必要なのかどうか(英語で読めばいいでしょ論)は立場が別れるところだとは思いますが、私は基本的に上記プロジェクト内の次の一文と同じ立場です。 そして、母国語でこのような入門書が読める、少なくともその選択肢があるのは望ましいことだと考えています。 なお、この記事も前の記事に引き続き、2017年に書きかけだった記事の供養です(投稿は2018年の年始)。 年末にやりたかったのですが、年始になってしまいました。。。 ど

少し(というか結構)前になりますが、2017年9月に「速習 強化学習 ―基礎理論とアルゴリズム―」という本を刊行しましたので、簡単に紹介します(Twitter, FBでは告知しましたがブログがまだでした)。GoogleのAlphaGoによるプロ棋士打破は,人工知能がヒトを超えた学習を行った歴史的出来事として認識された。強化学習はここで重要な役割を果たしてているだけでなく,自動運転やロボット制御などの重要な分野への応用も知られ,いま世間の強い関心を集めている。その一方,日本語で強化学習を体系的に学べる教科書は多くはなく,代表的な教科書であるSutton and Barto (1998)とその訳書も出版から20年が経とうとしている。本書はトップ会議のチュートリアルで利用されたり,2010年の出版以降わずか数年で500弱の引用がされたりという事実からも窺えるように,入門書として広く読まれてい

※2018年06月23日追記PyTorchを使用した最新版の内容を次の書籍にまとめました。 つくりながら学ぶ! 深層強化学習 ~PyTorchによる実践プログラミング~ 18年6月28日発売 強化学習の代表的な手法である「SARSA法」と「モンテカルロ法」の、実装コード紹介と解説を行います 学習する対象には、強化学習の「Hello World!」的存在である「CartPole」を使用します。 概要 強化学習の代表的な手法であるSARSA法、モンテカルロ法の2通りを実装・解説します。 ※ディープラーニングは使用しません。古典的?な強化学習です。 ・どちらも150行程度の短いプログラムです ・外部の強化学習ライブラリなどを使用せず、自力で組んでいます ・コメント多めです ・保守性よりも、初学者が分かりやすいことを優先してコードを書いています 【対象者】 ・Qiitaの強化学習の記事「ゼロから

本記事は、当社オウンドメディア「Doors」に移転しました。 約5秒後に自動的にリダイレクトします。 こんにちは。アナリティクスサービス本部の仲田です。本日は、「強化学習」について、その基礎的なアルゴリズムと、簡単なデモをご紹介します。 強化学習とは機械学習の手法のひとつ (画像はhttps://www.engadget.com/2016/03/12/watch-alphago-vs-lee-sedol-round-3-live-right-now/より) 「強化学習(Reinforcement Learning)」と呼ばれる学問分野をご存知でしょうか。機械学習にはさまざまな分類方法がありますが、「教師付き学習(Supervised Learning)」「教師なし学習(Unsupervised Learning)」「強化学習」という3種類に分ける考え方があります。 この考え方では、強化

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? ロボットから自動運転車、はては囲碁・将棋といったゲームまで、昨今多くの「AI」が世間をにぎわせています。 その中のキーワードとして、「強化学習」というものがあります。そうした意味では、数ある機械学習の手法の中で最も注目されている(そして誇張されている・・・)手法ともいえるかもしれません。 今回はその強化学習という手法について、基礎から最近目覚ましい精度を出しているDeep Q-learning(いわゆるドキュン、DQNです)まで、その発展の流れと仕組みについて解説をしていきたいと思います。本記事の内容をベースに、ハンズオンイベントを開

巷で話題のバンディットアルゴリズムを、 ネット上の素晴らしい資料を参考にしたり引用したりしながら、 おおまかなイメージがつかめるようにまとめていきます。 導入:タカシ君のお年玉 20XX年、元旦。 タカシ君は、この冬休みずっと、コインに念を送って表を出す練習に励んできました。 というのも、 コインが5種類(A,B,C,D,E)あるが、どうやらそれぞれ形が違うようで、表が出る確率が違う(が変化はしない) 「1回ごとにコインを1つ選んで、50回コイン投げていいよ」と両親に言われている 表が出た回数×1000円をお年玉としてもらえる ので、なんとかして表が出る回数を最大にしたいのです。 冗談はさておき、タカシ君は、どういう方針でコインを選ぶのがいいのでしょうか。 同じコインを投げ続ける?「コインB、君に決めた!」 全てのコインを均等に投げる?「平等にコインAを10回、Bを10回、...」 これま

1リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く