
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されますhttps://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します



注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

llama.cppにMoEに適したCPU/GPUの振り分けのオプションが入って、LM Studioでもそのオプションに対応し...llama.cppにMoEに適したCPU/GPUの振り分けのオプションが入って、LM Studioでもそのオプションに対応したことによって、MoEモデルであるGPT-ossが少ないGPUメモリでもそれなりに動くようになりました。拡大するとわかりますが、LM Studioの右下の表示によると、メインメモリは12GBくらい使います。 14tok/sec出ています。CPUだけで動かすと10tok/secだったので、5割マシですね。 0.3.23.0に「Force Model Expert weight ontoCPU」というスイッチが入っているので、これをOnにするとExpertのウェイトがすべてCPUに乗るようになります。アテンションはGPUで。 詳しくはリリースノートにありますが、llama.cppの--n-cpu-moeの仕組みを使ってるとのこと。 https://lmstudio.a

















