Movatterモバイル変換

[0]ホーム

サクサク読めて、
アプリ限定の機能も多数！

アプリで開く

はてなブックマーク

閉じる

テクノロジー
GPUメモリ4GBあればGPT-oss 20Bが14tok/secで動く - きしだのHatena

気に入った記事をブックマーク

気に入った記事を保存できます
保存した記事の一覧は、はてなブックマークで確認・編集ができます
記事を読んだ感想やメモを書き残せます
非公開でブックマークすることもできます

GPUメモリ4GBあればGPT-oss 20Bが14tok/secで動く - きしだのHatena

テクノロジーカテゴリーの変更を依頼記事元:

nowokay.hatenablog.com

適切な情報に変更

エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。

このページのオーナーなので以下のアクションを実行できます

タイトル、本文などの情報を
再取得することができます

コメントを非表示にできますコメント表示の設定

ブックマークしました

ここにツイート内容が記載されますhttps://b.hatena.ne.jp/URLはspanで囲んでください

Twitterで共有

次回からTwitterへ自動リダイレクト

ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します

91usersがブックマークコメント

コメントするにはログインが必要ですブックマークを追加

ブックマークを追加

よく使うタグ

GPUメモリ4GBあればGPT-oss 20Bが14tok/secで動く - きしだのHatena

91 users

nowokay.hatenablog.com

よく使うタグ

はてなブックマークで
関心をシェアしよう

みんなの興味と感想が集まることで
新しい発見や、深堀りがもっと楽しく

ユーザー登録

アカウントをお持ちの方はログインページへ

記事へのコメント8件

注目コメント
新着コメント

Kesin自分も試して32GBや64GBあれば最新世代の軽量版モデルを量子化したものが動くことに感動しつつ、結局OpenRouterなどを使った方がそこそこ安く圧倒的に速いので実用性があるかと言われたら趣味だとは思う

2025/08/14リンク

その他

misshiki“llama.cppにMoEに適したCPU/GPUの振り分けのオプションが入って、LM Studioでもそのオプションに対応したことによって、MoEモデルであるGPT-ossが少ないGPUメモリでもそれなりに動くようになりました。”

2025/08/14リンク

その他

kojikoji75“MoEモデルであるGPT-ossが少ないGPUメモリでもそれなりに動くようになりました。”

2025/08/15リンク

その他

boxshiitakeGPT-OSS 20BならOpenRouterで無料で使えるんだよな

2025/08/15リンク

その他

Imamuraローカルで動かしたくなった時用にブクマ

対話型AI

2025/08/15リンク

その他

2025/08/14リンク

その他

shigekaz00“LM Studio”

2025/08/14リンク

その他

2025/08/14リンク

その他

osakana110“MoEモデルであるGPT-ossが少ないGPUメモリでもそれなりに動くようになりました。拡大するとわかりますが、LM Studioの右下の表示によると、メインメモリは12GBくらい使います。”

2025/08/14リンク

その他

kei_1010試したい

2025/08/14リンク

その他

コメントするにはログインが必要ですログインしてコメント

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

リンクを埋め込む

以下のコードをコピーしてサイトに埋め込むことができます

プレビュー

はてなブックマークボタンを作成して埋め込むこともできます

規約違反を報告

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

usersに達しました！

さんが1番目にブックマークした記事「GPUメモリ4GBあれ...」が注目されています。

気持ちをシェアしよう

ツイートする

GPUメモリ4GBあればGPT-oss 20Bが14tok/secで動く - きしだのHatena

llama.cppにMoEに適したCPU/GPUの振り分けのオプションが入って、LM Studioでもそのオプションに対応し...llama.cppにMoEに適したCPU/GPUの振り分けのオプションが入って、LM Studioでもそのオプションに対応したことによって、MoEモデルであるGPT-ossが少ないGPUメモリでもそれなりに動くようになりました。拡大するとわかりますが、LM Studioの右下の表示によると、メインメモリは12GBくらい使います。 14tok/sec出ています。CPUだけで動かすと10tok/secだったので、5割マシですね。 0.3.23.0に「Force Model Expert weight ontoCPU」というスイッチが入っているので、これをOnにするとExpertのウェイトがすべてCPUに乗るようになります。アテンションはGPUで。詳しくはリリースノートにありますが、llama.cppの--n-cpu-moeの仕組みを使ってるとのこと。 https://lmstudio.a