「リグレッション」を含む日記

2025-11-23

■Gemini 3.0 Pro要緊急対策のご提言へのツッコミ

レポートが引用している記事やツイートなど個人の感想の中身については基本スルー、それらを元に提言を生成したAIによる解釈ミスやハルシネーションにツッコミ増田。

ちなみにこの提言ページがGoogleにインデックスされたのは4日前らしい。

Gemini 3.0 Pro要緊急対策のご提言
https://paste.ssig33.com/8a22a6e9-a91d-4368-9b2f-a3d4567c7798

1

Gemini 3.0 Pro要緊急対策のご提言宛先:Google社 シェイン・グウ様差出人:アクセンチュア株式会社 生成AI戦略担当シニアコンサルタント日付:2025年11月21日

ShaneGuはGoogleDeepMindであってGoogle社ではない。

差出人については「あなたはアクセンチュア株式会社の生成AI 戦略担当シニアコンサルタントです」と指示された結果なのかは知らん。

2

エグゼクティブサマリー

主な問題点は以下の4点に集約されます。事実性の著しい低下:Web検索を伴うタスクでのハルシネーションが悪化し、自信を持って虚偽の情報を生成する事例が多発。論理的思考能力の退行: 複雑な指示やコーディングタスクにおいて、前モデル（Gemini 2.5 Pro）よりも論理が破綻しやすくなっている。創造性と柔軟性の欠如:文章生成において「賢すぎる」が故に理屈っぽく、ユーザーが求める「人間らしい」文体への調整を拒否する傾向。APIの不安定化:パフォーマンス低下、APIエラー、予期せぬタイムアウトの増加が開発者体験を著しく損なっています。

後で分かるが（たどり着く前に書くの飽きたんで提言読んで）、このうち

APIの不安定化:パフォーマンス低下、API エラー、予期せぬタイムアウトの増加が開発者体験を著しく損なっています。

についてはGemini 2.5 Proのユーザーが「おい調子悪いぞ！Gemini3出すためにそっちにリソース割いてんじゃね？」とか言ってるのを引っ張ってきて勘違いしてる。

論理的思考能力の退行: 複雑な指示やコーディングタスクにおいて、前モデル（Gemini 2.5 Pro）よりも論理が破綻しやすくなっている。

このソースは不明。

3

1.1.ハルシネーションと事実誤認の悪化：「自信満々に嘘をつく」AIGemini 3.0 Proの最も深刻な問題は、事実性が求められる場面でのハルシネーションの増加です。特に、貴社のコア技術であるはずのWeb検索連携において、致命的な欠陥が報告されています。

自己認識に関するハルシネーション:
Redditでは、Gemini 3.0 Pro自身が「私はGemini 3 Proです。昨日（2025年 11月18日）リリースされました」と、架空のソースを引用しつつ自己紹介する事例が投稿されました。これはモデルが自身のアイデンティティと知識のカットオフに関して、もっともらしい嘘を生成していることを示唆しています。 Gemini 3's thought processis wild, absolutely wild. : r/singularity

参考記事ではモデルの思考が混乱している様子と実際の応答との乖離が示されていて、最終的に正しいソースを元に正しく回答している。「架空のソースを引用しつつ自己紹介する事例」ではない。

Googleは生のThinkingをユーザーに提示せず、要約モデルで処理した結果を見せてるだけなんで思考部分と返事のすれ違いはよくある事。これについてもスレに書かれてある。

4

1.2.論理的思考とコーディング能力の退行（リグレッション）Gemini 3.0 Proは「PhDレベルの知能」と謳われているにもかかわらず、多くのユーザーが論理的思考やコーディング能力において、前モデルであるGemini 2.5 Proからの明らかな退行を報告しています。

論理の破綻と浅い推論:
ユーザーからは「複雑な指示では論理が破綻する」との指摘や Gemini研究＠リョウスケ (@chatgpt_ai_bard) / Posts / X、「浅い推論（shallow reasoning）」しかせず、「ひどいハルシネーション（terrible hallucinations）」を伴うため、「ベンチマーク用のモデルだ」と酷評されています。 lluviampo (@XXXadiov2)

ここでリンクされているGemini研究＠リョウスケはGemini大好きマンで、まったくそんな話をしていなかった。もしかすると呟いていたかもしれんが、それならリンク先がポストではなくアカウントのホームになっているのは不自然。

DeepResearchはよくソースの取り違えをして、別のソースで書かれてた事に間違った引用元をつける事はあるが、これがそうなのかは分からん。

5

1.2.論理的思考とコーディング能力の退行（リグレッション）・コーディング能力の劇的な低下

壊れたコードの生成:エージェントタスクにおいて「ループに陥り、壊れたコードを書き、10分以上動作しない」という深刻な不具合が報告されています。 prylo (@AgiGuard8)

元のツイでは

エージェントタスクは全くダメ、ループする、壊れたコードを書く、フロントエンド以外のコーディングではトークンを異常な速さで消費する。このモデルは最悪だ。Gemini 3.0 Proは10分以上動作しない。

と言っているが、これをモデルの不具合と解釈するのは間違いだろう。たまにマジの不具合もあるが。

====

バグの再発と整合性の喪失: ある開発者は、旧モデルで失敗したツール開発をGemini 3.0 Proで再試行したところ、一発で高品質なコードが生成されたと肯定的に評価する一方で、別の文脈では「直したはずのバグが復活する」「最終的にはコードの整合性が取れなくなる」といった、旧モデルと同様の問題が依然として存在することも示唆されています。【検証】Gemini 3.0 Proの実力は？かつてAIが挫折した開発に「同じプロンプト」で挑んだ結果｜start withAI

リンクされた記事の中身を要約すると「以前のGeminiはバグが復活するとか色々あったけどGemini 3.0 Proマジパネェ！」だった。

この箇所で「旧モデルと同様の問題が依然として存在する」と書かれているのは、旧モデルの問題点として挙げた箇所をGemini3に対しての指摘だと勘違いした事による。

====

ベンチマークテストでの失敗:YouTubeでの検証動画では、チェス盤を自動プレイさせるタスクにおいて、Gemini 3のチェックポイントモデルが初めて失敗したことが示されました。これは、特定の複雑なロジックにおいて、以前のバージョンより劣っている可能性を示唆します。

ここでリンクされているのは、LMArenaでRiftrunnerモデルをテストした結果をまとめた動画。LMArenaは覆面調査環境、RiftrunnerはGemini3らしきモデルのコードネーム。LMArenaでは（出力から推測されてきた）Gemini3系列モデルが、これまでにいくつかでている。

よって「Gemini 3のチェックポイントモデルが初めて失敗した」の意味はつまり「これまでLMArenaでテストされていたGemini3系列モデルのうち、Riftrunnerは初めてオートチェスのコーディングに失敗した」である。

「以前のバージョンより劣っている可能性を示唆」とは、「Riftrunnerは、以前の匿名Gemini3系列モデルより劣っている可能性がある」という話で、そもそもRiftrunnerが、リリースされたGemini 3 Proなのかすら分からん。

====

思考プロセスの出力への漏洩:
GitHubのIssueやTwitterでは、モデルの内部的な「思考プロセス」が最終的な出力に混入し、制約を無視した意味不明なコンテンツを生成するバグが報告されています。これは「初期の2.5 Proバージョンへの回帰（regression similar to early 2.5 Pro versions）」のようだと述べられています。 Jason L (@Jason1820067393)

Google AI Studioでの話。初期指示を忘れた結果思考が垂れ流しになり、垂れ流しのせいで更に指示を忘れたのだろうが、バグとは違う。

リンク先のツイートでは

I'm encountering a significantissuewith the Gemini 3.0 ProPreview on AI Studio.
Theraw "Thinking Process"is leaking into thefinal output, themodel fails to follow constraints, producing hallucinated/gibberish content.Like a regression similar to early 2.5 Pro versions.