エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されますhttps://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
LLMのトレーニング(事前学習や継続学習)は膨大なGPUリソースかかりますので、試したこともなく、いつ...LLMのトレーニング(事前学習や継続学習)は膨大なGPUリソースかかりますので、試したこともなく、いつもどうやって行っているのか疑問になっていました。 最近、中国のBaichuan(中国で有名なLLM)の技術レポートを読んだところ、LLMのトレーニング流れについて書かれていましたので、そのプロセスをある程度理解することができました。(このレポートは、おそらく唯一のLLMトレーニングの過程を全て公開したレポートだと思います。一般的には、LLMのトレーニングに関するレポートは精度の紹介にとどまり、詳細なプロセスやコツはほとんど公開されないため、これ読むことで結構勉強になりました。) まずすべてのLLMは分散学習でトレーニングします。 なぜ分散学習が必要かというと、LLMをトレーニング際に学習するパラメーターの数が少なくとも数十億にも及ぶため、一台のGPUのメモリでは学習できないです。 分散学習