Movatterモバイル変換


[0]ホーム

URL:


Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker DeckSpeaker Deck
Speaker Deck

Reinforcement Fine-tuning 基礎〜実践まで

Avatar for Morita Morita
December 11, 2025

Reinforcement Fine-tuning 基礎〜実践まで

AWS re:Invent ふりかえり勉強会 クラスメソッド re:Growth 2025 福岡
https://classmethod.connpass.com/event/372977/

Avatar for Morita

Morita

December 11, 2025
Tweet

More Decks by Morita

See All by Morita

Other Decks in Technology

See All in Technology

Featured

See All Featured

Transcript

  1. 2025/12/11 クラウド事業本部 コンサルティング部 森⽥⼒ Reinforcement Fine-tuning 基礎〜実践まで

  2. ⾃⼰紹介 • 所属 ◦ クラウド事業本部 コンサルティング部 • 好きなサービス ◦ Amazon

    Bedrock ◦ AWS Lambda • re:Invent ◦ 2回⽬の参加 ◦ PCディスプレイ破損した😇
  3. AWS re:Invent 2025 - Dr. Swami Sivasubramanian

  4. Reinforcement Fine-tuning in Amazon Bedrock Reinforcement Fine-tuningの特徴として • ベースモデルと⽐較して、平均66%の精度向上を実現 •

    深い機械学習(ML)の専⾨知識や、⼤規模なラベル付きデータセットは不要 • エンドツーエンドで⾃動化されたファインチューニング • 品質を維持しながら、より⼩さく、⾼速で、費⽤対効果の⾼いモデルを実現  
  5. Reinforcement?

  6. Reinforcement Learning Reinforcement … Reinforcement Learning(強化学習) 強化学習は、端的に⾔うと「最適な⾏動や戦略を学習する⼿法」 ⾝近な例:ゲームをする場合

  7. ゲームに対しての攻略⽅法がわからない ユーザが取れる⾏動: • 攻撃する • 移動する など → 様々な⾏動を試して、試⾏錯誤を⾏う Reinforcement

    Learning
  8. ⾏動の結果がわかる 結果: • 勝つ • 負ける など この結果と⾏動を紐づけて考える 例:攻撃すると勝つ、移動すると負ける Reinforcement

    Learning
  9. Reinforcement Learning ゲームの場合でも • 様々な状態,⾏動, 結果があるため、⼈間では全てを把握することは難しい 強化学習では • 「様々な状態,⾏動, 結果」を表現することで最適な⾏動を選択できるようなる

    • 結果も数値で表現するため、 ◦ 良い結果の場合、プラス ◦ 悪い結果の場合、マイナス ◦ このように与える数値のことを報酬と呼びます
  10. Reinforcement Fine-tuningについて

  11. Reinforcement Fine-tuning Reinforcement Fine-tuning (RFT) 「強化学習」の仕組みを LLM の学習(Fine-tuning)に適⽤ 先ほどのゲームの例では「クリアやスコア」が報酬 RFTにおいては「⼈間の評価」や「特定の基準」が報酬

    具体的には、モデルが⽣成した回答に対して、 「この回答は良い(報酬を与える)」「この回答は良くない(罰則を与える)」 というフィードバックを与える → 「より⾼い評価が得られる回答の作り⽅」を学習させることが可能
  12. Reinforcement Fine-tuning

  13. Bedrock Reinforcement Fine-tuningについて

  14. Bedrock Reinforcement Fine-tuning 以下を設定するだけで Reinforcement Fine-tuning を実⾏可能 • ソースモデル •

    ⼊⼒データ • 報酬関数
  15. ソースモデル 現在は、「Nova 2 Lite」のみの対応 https://dev.classmethod.jp/articles/amazon-nova-2-lite-release-aws-reinvent/

  16. ⼊⼒データ • OpenAI chat completions format(JSONL) • モデル呼び出しログ

  17. 報酬関数 AI フィードバック • AI(LLM)を⽤いて評価する⽅法 • AIにどのようなケースでどのような報酬を与えるかをプロンプトとして与えるこ とで、回答をより柔軟に評価することが可能となる

  18. 報酬関数 AI フィードバック • 選択できるAI(LLM) ◦ Nova Premier ◦ gpt-oss-120b

    • プロンプトのサンプルの提供あり ◦ Instruction following (Judge model training) ◦ Summarization (Multi-turn dialogs) ◦ Reasoning evaluation (CoT for specialized domains) ◦ RAG faithfulness (Context-grounded Q&A)
  19. 報酬関数 検証可能な報酬 • 報酬関数を事前にルールベースで定義 • コード⽣成や数学的推論では、以下のように明確な正解が存在する ◦ エラーなく実⾏できるか ◦ 計算結果が合っているか

    • このようなケースでは、AIモデルを⽤いるよりルールベースで与えたほうが、 より正確で効率的な学習が可能になります。
  20. 報酬関数 検証可能な報酬 • AWS Lambdaで設定可能 • Lambdaのサンプル提供あり ◦ Format &

    constraints checker ◦ Math reasoning
  21. 結論: 「⼊⼒データ」だけ準備すればOK

  22. Bedrock Reinforcement Fine-tuningのジョブ実⾏ • ジョブの時間単位 • (おそらく)関連リソースの料⾦も発⽣する ◦ 報酬関数(LLM, AWS

    Lambda) モデル推論 • カスタムモデルオンデマンド ◦ 利⽤したトークンベースの課⾦ ◦ ホスティング費⽤は発⽣しない 料⾦
  23. まとめ • 従来まで構成が難しい Reinforcement Fine-tuning が Bedrockで実現可能に • ⼩規模モデルで精度が満⾜できていなかったケースでも採⽤できる可能性あり •

    作成したモデルも従量課⾦で利⽤できるため、スモールに開始できる
  24. None

[8]ページ先頭

©2009-2025 Movatter.jp