Movatterモバイル変換

Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

Speaker Deck

Speaker Deck

Reinforcement Fine-tuning 基礎〜実践まで

December 11, 2025

180

Reinforcement Fine-tuning 基礎〜実践まで

AWS re:Invent ふりかえり勉強会クラスメソッド re:Growth 2025 福岡
https://classmethod.connpass.com/event/372977/

Morita

December 11, 2025

More Decks by Morita

See All by Morita

FSx for Lustreを使ったAIモデル開発の始め方

0

83

Dify で AWS を使い倒す！

1

800

DeepSeek for Amazon Bedrock

0

72

5分で学ぶ！宣言型ポリシーの基礎からベストプラクティスまで

1

570

新機能 Bedrock Model Distillation 基礎〜実践まで #regrowth_fuk

0

640

AWS を使った生成AIの活用

0

840

AWS初めての方必見！初学者でも入りやすいAWSサービス3選 #devio2022

0

1.4k

Security Hub のマルチアカウント管理・運用をサーバレスでやってみる

0

3.8k

NITKハッカソンクラウド入門

0

980

Other Decks in Technology

See All in Technology

世界最速級 memcached 互換サーバー作った

0

340

AWSセキュリティアップデートとAWSを育てる話

0

260

AI 駆動開発勉強会フロントエンド支部 #1 w/あずもば

0

350

mairuでつくるクレデンシャルレス開発環境 / Credential-less development environment using Mailru

4

360

会社紹介資料 / Sansan Company Profile

11

390k

AWSを使う上で最低限知っておきたいセキュリティ研修を社内で実施した話 ~みんなでやるセキュリティ~

2

420

GitHub Copilotを使いこなす実例に学ぶAIコーディング活用術

3

3k

ガバメントクラウド利用システムのライフサイクルについて

0

190

5分で知るMicrosoft Ignite

0

350

多様なデジタルアイデンティティを攻撃からどうやって守るのか / 20251212

0

440

OCI Oracle Database Services新機能アップデート(2025/09-2025/11)

oracle4engineer

1

150

【AWS re:Invent 2025速報】AIビルダー向けアップデートをまとめて解説！

4

520

Featured

See All Featured

How To Stay Up To Date on Web Technology

791

250k

Building an army of robots

306

46k

Build your cross-platform service in a week with App Engine

234

18k

31

5.7k

Mobile First: as difficult as doing things right

225

10k

Creating an realtime collaboration tool: Agile Flush - .NET Oxford

35

2.3k

Fashionably flexible responsive web design (full day workshop)

407

66k

Designing Dashboards & Data Visualisations in Web Apps

231

54k

Principles of Awesome APIs and How to Build Them.

127

17k

The Straight Up "How To Draw Better" Workshop

239

140k

Save Time (by Creating Custom Rails Generators)

32

1.8k

Building Better People: How to give real-time feedback that sticks.

370

20k

Transcript

2025/12/11 クラウド事業本部コンサルティング部森⽥⼒ Reinforcement Fine-tuning 基礎〜実践まで
⾃⼰紹介 • 所属 ◦ クラウド事業本部コンサルティング部 • 好きなサービス ◦ Amazon
Bedrock ◦ AWS Lambda • re:Invent ◦ 2回⽬の参加 ◦ PCディスプレイ破損した😇
AWS re:Invent 2025 - Dr. Swami Sivasubramanian
Reinforcement Fine-tuning in Amazon Bedrock Reinforcement Fine-tuningの特徴として • ベースモデルと⽐較して、平均66%の精度向上を実現 •
深い機械学習（ML）の専⾨知識や、⼤規模なラベル付きデータセットは不要 • エンドツーエンドで⾃動化されたファインチューニング • 品質を維持しながら、より⼩さく、⾼速で、費⽤対効果の⾼いモデルを実現
Reinforcement？
Reinforcement Learning Reinforcement … Reinforcement Learning（強化学習）強化学習は、端的に⾔うと「最適な⾏動や戦略を学習する⼿法」⾝近な例：ゲームをする場合
ゲームに対しての攻略⽅法がわからないユーザが取れる⾏動： • 攻撃する • 移動するなど → 様々な⾏動を試して、試⾏錯誤を⾏う Reinforcement
Learning
⾏動の結果がわかる結果： • 勝つ • 負けるなどこの結果と⾏動を紐づけて考える例：攻撃すると勝つ、移動すると負ける Reinforcement
Learning
Reinforcement Learning ゲームの場合でも • 様々な状態,⾏動, 結果があるため、⼈間では全てを把握することは難しい強化学習では • 「様々な状態,⾏動, 結果」を表現することで最適な⾏動を選択できるようなる
• 結果も数値で表現するため、 ◦ 良い結果の場合、プラス ◦ 悪い結果の場合、マイナス ◦ このように与える数値のことを報酬と呼びます
Reinforcement Fine-tuningについて
Reinforcement Fine-tuning Reinforcement Fine-tuning （RFT）「強化学習」の仕組みを LLM の学習（Fine-tuning）に適⽤先ほどのゲームの例では「クリアやスコア」が報酬 RFTにおいては「⼈間の評価」や「特定の基準」が報酬
具体的には、モデルが⽣成した回答に対して、「この回答は良い（報酬を与える）」「この回答は良くない（罰則を与える）」というフィードバックを与える → 「より⾼い評価が得られる回答の作り⽅」を学習させることが可能
Reinforcement Fine-tuning
Bedrock Reinforcement Fine-tuningについて
Bedrock Reinforcement Fine-tuning 以下を設定するだけで Reinforcement Fine-tuning を実⾏可能 • ソースモデル •
⼊⼒データ • 報酬関数
ソースモデル現在は、「Nova 2 Lite」のみの対応 https://dev.classmethod.jp/articles/amazon-nova-2-lite-release-aws-reinvent/
⼊⼒データ • OpenAI chat completions format（JSONL） • モデル呼び出しログ
報酬関数 AI フィードバック • AI（LLM）を⽤いて評価する⽅法 • AIにどのようなケースでどのような報酬を与えるかをプロンプトとして与えることで、回答をより柔軟に評価することが可能となる
報酬関数 AI フィードバック • 選択できるAI（LLM） ◦ Nova Premier ◦ gpt-oss-120b
• プロンプトのサンプルの提供あり ◦ Instruction following (Judge model training) ◦ Summarization (Multi-turn dialogs) ◦ Reasoning evaluation (CoT for specialized domains) ◦ RAG faithfulness (Context-grounded Q&A)
報酬関数検証可能な報酬 • 報酬関数を事前にルールベースで定義 • コード⽣成や数学的推論では、以下のように明確な正解が存在する ◦ エラーなく実⾏できるか ◦ 計算結果が合っているか
• このようなケースでは、AIモデルを⽤いるよりルールベースで与えたほうが、より正確で効率的な学習が可能になります。
報酬関数検証可能な報酬 • AWS Lambdaで設定可能 • Lambdaのサンプル提供あり ◦ Format &
constraints checker ◦ Math reasoning
結論：「⼊⼒データ」だけ準備すればOK
Bedrock Reinforcement Fine-tuningのジョブ実⾏ • ジョブの時間単位 • （おそらく）関連リソースの料⾦も発⽣する ◦ 報酬関数（LLM, AWS
Lambda）モデル推論 • カスタムモデルオンデマンド ◦ 利⽤したトークンベースの課⾦ ◦ ホスティング費⽤は発⽣しない料⾦
まとめ • 従来まで構成が難しい Reinforcement Fine-tuning が Bedrockで実現可能に • ⼩規模モデルで精度が満⾜できていなかったケースでも採⽤できる可能性あり •
作成したモデルも従量課⾦で利⽤できるため、スモールに開始できる
None

[8]ページ先頭

©2009-2025 Movatter.jp