GLM 4.6Vが出てるのでMLXの4bit版を試してみました。
106BのMoEでアクティブパラメータは12B。画像や動画に対応しています。画像エンコーダーもあるので全体では108B。
ライセンスはMIT。
zai-org/GLM-4.6V · Hugging Face
GLM-4.6V: Open Source Multimodal Models with Native Tool Use
小説を書いてもらったら、日本語も流暢で結構いい感じ。
「64歳以上であれば100円、64歳未満は1000円」を整数四則演算だけで実現して。年齢制限なく対応できるように。
ループに入ってしまった。
このあたりはRemaining Issuesにも書いてある。
The model may still overthink or even repeat itself in certain cases, especially when dealing with complex prompts.
いつもどおりブロック崩し。
エラーを一回だしたものの、ちゃんと動くコードが出た。

ただ、Thinkingが長い。最中に一旦コードを出力したりしていた。
そして、ちょっと修正してもらう。
これもすんなり実装してくれた。Thinkingも妥当な内容だった。
かなり安定してコードを書いてくれる印象。
/nothinkを付けるとThinkingを省略できる。
けど、同じことを繰り返したり、ちょっと挙動があやしい。
enable_thinking を設定して抑制もできそうだけど、試してない。
量子化のせいかも。
日本語読み取り、ほぼ完ぺき。
ただ、begin_of_boxのようなコントロールトークン出てしまってます。Jinjaテンプレートにbegin_of_boxがないんで、テンプレートの問題かな。
画像を渡してJavaフォームを作ってもらうのも、再現度が高い。
最近はGLM 4.5-Airをローカルではメインに使ってるけど、画像付きでバージョンアップした。
100B帯で唯一の画像言語モデルともいえるので、第一選択肢になりそう。
(Llama 4 Scoutが109Bだけど、ライセンスが使いにくいのと性能が低いので・・・)
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。