本記事は、DeepSeek-R1の論文とDeepSeekMathの論文を読んだ私の理解をもとに記載しています。本論文で使われている技術に関しては、ある程度の知識を持っているので、大きくは外していないとは思いますが、私の主観も入っている部分もありますので、ご了承ください。 また、DeepSeek-R1の論文が公開される前に、小型モデルに対して同様の実験(強化学習)をしていたグループがあるようです。 そちらのレポートは下記になります。 意図せず、DeepSeek-R1-Zeroの再現実験のようなレポートになっていますが、レポートの著者はDeepSeek-R1論文の公開前から実験していると主張しています。 こちらも非常に興味深かったため紹介です。本論文の興味深いところ本論文は、大きく分けて3つの構成でできています 強化学習による思考能力の強化 LLM(DeepSeek-V3-Base)に対

巷では「AIエージェント」のワードをよく見かける一方、何をAIエージェントと定義するのか自分もフワっとしていたので、2024年12月20日に公開されたAnthropicの「Building effective agents」の記事を読んでみました。 「AIエージェントの定義ははっきりと定まっていません」みたいな文言は方々で見ますが、各社がどういう見解でそのワードを使っているのか、なんとなく理解することはできます。 ちなみに、以下の「うたたね / Masaki Otsuki」さんの記事では各社がどのような位置付けとしているのかがまとまっており、私も勉強させていただきました。ありがとうございます。 ※本記事ではAnthropicの記事に焦点を絞り、記事の内容を元に記述しています。 エージェントとワークフローの違い ワークフロー: LLMとツールが事前定義されたコードのパスを通じて調整されるシス

AI研究者がノーベル物理学賞・化学賞を受賞したことについてのコメント2024年10月10日 一般社団法人 人工知能学会 会長 栗原 聡 今回のノーベル物理学賞において,ジョン・ホップフィールド,ジェフリー・ヒントン両先生が受賞され,翌日の化学賞においてデミス・ハサビス氏が受賞したことについて,まずはAIコミュニティにとってとても喜ばしく,この流れが今後も続くことが期待されることは,基礎研究の重要性の今更の再認識においても強い説得力がある出来事であったことは間違いない.ホップフィールド氏、ヒントン氏、お二人の物理学賞受賞を知った時は正直驚いた,というか意表を突かれた感覚であった.自然科学や宇宙についての発見やその人類への貢献に対する物理学賞というのが一般的な認識である中,情報処理に関する研究が受賞したのであるから驚いたのは当然であろう.確かに,我々の脳の機能をコンピュータ上で再現した,すなわ

ソーニャ・ホアン:本日はノーム、ハンター、イルゲをお迎えしました。3人はOpenAIのプロジェクト・ストロベリー、別名o1の研究者です。o1はOpenAIが初めて本格的に取り組んだ汎用推論時計算で、推論、思考連鎖、推論時スケーリング則などについてチームと話し合うのを楽しみにしています。 o1への確信ソーニャ・ホアン: イルゲ、ハンター、ノーム、お越しいただきありがとうございます。そしてo1の公開おめでとうございます。まず伺いたいのですが、これがうまくいくという確信は最初からありましたか? ノーム・ブラウン: この方向性に何か有望なものがあるという確信はあったと思いますが、実際にここに至る道筋は決して明確ではありませんでした。o1を見てみると、これは一夜にしてできたものではありません。実際、何年もの研究が投入されており、その研究の多くは実際には実を結びませんでした。しかし、OpenAIとリ

1リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く