
はてなキーワード:リグレッションとは
レポートが引用している記事やツイートなど個人の感想の中身については基本スルー、それらを元に提言を生成したAIによる解釈ミスやハルシネーションにツッコミ増田。
ちなみにこの提言ページがGoogleにインデックスされたのは4日前らしい。
レポート:
https://paste.ssig33.com/8a22a6e9-a91d-4368-9b2f-a3d4567c7798
Gemini 3.0 Pro要緊急対策のご提言宛先:Google社 シェイン・グウ様差出人:アクセンチュア株式会社 生成AI戦略担当シニアコンサルタント日付:2025年11月21日
ShaneGuはGoogleDeepMindであってGoogle社ではない。
差出人については「あなたはアクセンチュア株式会社の生成AI戦略担当シニアコンサルタントです」と指示された結果なのかは知らん。
エグゼクティブサマリー
主な問題点は以下の4点に集約されます。事実性の著しい低下:Web検索を伴うタスクでのハルシネーションが悪化し、自信を持って虚偽の情報を生成する事例が多発。論理的思考能力の退行: 複雑な指示やコーディングタスクにおいて、前モデル(Gemini 2.5 Pro)よりも論理が破綻しやすくなっている。創造性と柔軟性の欠如:文章生成において「賢すぎる」が故に理屈っぽく、ユーザーが求める「人間らしい」文体への調整を拒否する傾向。APIの不安定化:パフォーマンス低下、APIエラー、予期せぬタイムアウトの増加が開発者体験を著しく損なっています。
後で分かるが(たどり着く前に書くの飽きたんで提言読んで)、このうち
についてはGemini 2.5 Proのユーザーが「おい調子悪いぞ!Gemini3出すためにそっちにリソース割いてんじゃね?」とか言ってるのを引っ張ってきて勘違いしてる。
論理的思考能力の退行: 複雑な指示やコーディングタスクにおいて、前モデル(Gemini 2.5 Pro)よりも論理が破綻しやすくなっている。
1.1.ハルシネーションと事実誤認の悪化:「自信満々に嘘をつく」AIGemini 3.0 Proの最も深刻な問題は、事実性が求められる場面でのハルシネーションの増加です。特に、貴社のコア技術であるはずのWeb検索連携において、致命的な欠陥が報告されています。
Redditでは、Gemini 3.0 Pro自身が「私はGemini 3 Proです。昨日(2025年11月18日)リリースされました」と、架空のソースを引用しつつ自己紹介する事例が投稿されました。これはモデルが自身のアイデンティティと知識のカットオフに関して、もっともらしい嘘を生成していることを示唆しています。 Gemini 3's thought processis wild, absolutely wild. : r/singularity
参考記事ではモデルの思考が混乱している様子と実際の応答との乖離が示されていて、最終的に正しいソースを元に正しく回答している。「架空のソースを引用しつつ自己紹介する事例」ではない。
Googleは生のThinkingをユーザーに提示せず、要約モデルで処理した結果を見せてるだけなんで思考部分と返事のすれ違いはよくある事。これについてもスレに書かれてある。
1.2.論理的思考とコーディング能力の退行(リグレッション)Gemini 3.0 Proは「PhDレベルの知能」と謳われているにもかかわらず、多くのユーザーが論理的思考やコーディング能力において、前モデルであるGemini 2.5 Proからの明らかな退行を報告しています。
ユーザーからは「複雑な指示では論理が破綻する」との指摘や Gemini研究@リョウスケ (@chatgpt_ai_bard) / Posts / X、「浅い推論(shallow reasoning)」しかせず、「ひどいハルシネーション(terrible hallucinations)」を伴うため、「ベンチマーク用のモデルだ」と酷評されています。 lluviampo (@XXXadiov2)
ここでリンクされているGemini研究@リョウスケはGemini大好きマンで、まったくそんな話をしていなかった。もしかすると呟いていたかもしれんが、それならリンク先がポストではなくアカウントのホームになっているのは不自然。
DeepResearchはよくソースの取り違えをして、別のソースで書かれてた事に間違った引用元をつける事はあるが、これがそうなのかは分からん。
1.2.論理的思考とコーディング能力の退行(リグレッション)・コーディング能力の劇的な低下
壊れたコードの生成:エージェントタスクにおいて「ループに陥り、壊れたコードを書き、10分以上動作しない」という深刻な不具合が報告されています。 prylo (@AgiGuard8)
元のツイでは
エージェントタスクは全くダメ、ループする、壊れたコードを書く、フロントエンド以外のコーディングではトークンを異常な速さで消費する。このモデルは最悪だ。Gemini 3.0 Proは10分以上動作しない。
と言っているが、これをモデルの不具合と解釈するのは間違いだろう。たまにマジの不具合もあるが。
====
バグの再発と整合性の喪失: ある開発者は、旧モデルで失敗したツール開発をGemini 3.0 Proで再試行したところ、一発で高品質なコードが生成されたと肯定的に評価する一方で、別の文脈では「直したはずのバグが復活する」「最終的にはコードの整合性が取れなくなる」といった、旧モデルと同様の問題が依然として存在することも示唆されています。 【検証】Gemini 3.0 Proの実力は?かつてAIが挫折した開発に「同じプロンプト」で挑んだ結果|start withAI
リンクされた記事の中身を要約すると「以前のGeminiはバグが復活するとか色々あったけどGemini 3.0 Proマジパネェ!」だった。
この箇所で「旧モデルと同様の問題が依然として存在する」と書かれているのは、旧モデルの問題点として挙げた箇所をGemini3に対しての指摘だと勘違いした事による。
====
ベンチマークテストでの失敗:YouTubeでの検証動画では、チェス盤を自動プレイさせるタスクにおいて、Gemini 3のチェックポイントモデルが初めて失敗したことが示されました。これは、特定の複雑なロジックにおいて、以前のバージョンより劣っている可能性を示唆します。
ここでリンクされているのは、LMArenaでRiftrunnerモデルをテストした結果をまとめた動画。LMArenaは覆面調査環境、RiftrunnerはGemini3らしきモデルのコードネーム。LMArenaでは(出力から推測されてきた)Gemini3系列モデルが、これまでにいくつかでている。
よって「Gemini 3のチェックポイントモデルが初めて失敗した」の意味はつまり「これまでLMArenaでテストされていたGemini3系列モデルのうち、Riftrunnerは初めてオートチェスのコーディングに失敗した」である。
「以前のバージョンより劣っている可能性を示唆」とは、「Riftrunnerは、以前の匿名Gemini3系列モデルより劣っている可能性がある」という話で、そもそもRiftrunnerが、リリースされたGemini 3 Proなのかすら分からん。
====
GitHubのIssueやTwitterでは、モデルの内部的な「思考プロセス」が最終的な出力に混入し、制約を無視した意味不明なコンテンツを生成するバグが報告されています。これは「初期の2.5 Proバージョンへの回帰(regression similar to early 2.5 Pro versions)」のようだと述べられています。 Jason L (@Jason1820067393)
GoogleAIStudioでの話。初期指示を忘れた結果思考が垂れ流しになり、垂れ流しのせいで更に指示を忘れたのだろうが、バグとは違う。
I'm encountering a significantissuewith the Gemini 3.0 ProPreviewonAIStudio.
Theraw "Thinking Process"is leaking into thefinal output, themodel fails to follow constraints, producing hallucinated/gibberish content.Like a regression similar to early 2.5 Pro versions.
と書かれていて、これは正しい観察。
ここに含まれるIssueという単語により、Issueと言えばGitHubだと連想した結果「GitHubのIssueやTwitterでは」になったのだろう。
飽きました。誰得だよ。
つーかいい加減DeepResearchは一気に生成すんのやめろよな。だいたいこうやって収集した情報がごっちゃになるんだから。
IEEEがコードレビューに関する論文を出していて、それを読む限りではコードレビューはバグの検出にはそれほど効果がないとのことでした。
(品質の維持/向上やレビュー者間へのシステム理解速度に対して好影響を与えているとのこと)
過去システムリリース時や変更時にテストケースが記録されていないことによる不完全なリグレッションテストが行われていることやシステムの仕様を誰も管理出来ていないことが問題なので、増田自身には問題はなかったんだがね。
失敗しちゃったからそういうところをしっかりやっていきましょうと言って組織を引っ張っていけるぐらい図太くなれればよかったんだけど…
学歴がよくなくて、就職が困難だったので中小SIer で働いていた。 (プライム案件を取ってこれる分マシらしい)
レキサルティ、レクサプロ、デパスのお世話になって続けてたけど、結局は薬でどうにかできず、辞めてしまった。
参考程度だけど、未経験の人が 300万 をもらうために、どのようなスキルが必要かを、まとめておく。
ちなみにどれくらいプログラムが書けなかったかというと、競技プログラミングで努力してもAtCoder の黄色になれず青色のままってくらい。
AtCoder でいう、初心者から抜け出せないという、要するにセンスがないということなのだけど、そういう人も居そうなので、参考までに。
未経験のプログラマに対して、これだけ要求されるのだから、未経験の人は覚悟するようにという指針を提供したいので書いた。
基本的に、損害を与えた場合には、それを作業者が補填するという誓約書を結ぶ。
要するに、捨て駒として扱って、失敗したら賠償しろ、という事になる。
このことを認識して、失敗しないように振舞ないと、連帯保証人含めて迷惑をかける事になる。
要するに、低賃金で未経験プログラマを案件にノーリスクで送りこんで、稼ぐための手段です。
基本的に PL (夢想家) →PM (御用聞き) →プログラマ という環境なので、プログラマが自分でディレクションして意思決定する必要がある。
例えば、下請けの場合は、PM の御用聞きの結果のWBS に合わせないと、顧客からDM で瑕疵担保責任がどうとか言われる。
社内開発の場合は、PL の方から直接、長時間の叱責を受けなくてはならない。
そういう不幸を防ぐためにも、自分でディレクションして、PM の決めた実態を反映していないWBS に合わせて作業するスキルが要求される。
基本的に手戻りは個人の過失になってしまうため、手戻りしないように考え抜いて意思決定をする、というのが重要になる。
これこそ、ガクチカと呼ばれる、頑張れますというスキルなので、学生時代に頑張っておけばよかったなぁ。
こう見せたい、こう表現したい、という事を伝えるには、必然的にデザインの知識が必要になる。
創造的思考とデザインは切っても切り離せない概念で、デザインとは創造なのだから、当たり前である。
ソフトウェアアーキテクチャも、ソフトウェア設計も、コーディングもデザインと言えるかもしれない。
顧客と 1:1 で話す事がDM でもボイチャでも突発的に発生するので、いつ、いかなる時でも論理武装していなければならない。
まぁ、顧客であったり PL であったりはキレるのが仕事なので、それに対して理路整然と説明する必要がある。
なんとなく、では納得しないし、すぐ損害賠償請求とかそういう話にいくので、答えられないと持ち帰りますとお茶を濁して、エマージェンシーになる。
後述する設計能力においても、課題を把握するための言語技術(言語化能力)は重要なファクターだと思う。
C/C++ のシステムプログラムはフレームワークが基本的に無いので、自分で概念を整理して、どのような変更、拡張があるかを考えて設計する必要がある。
この能力が弱いと、手戻りが発生しやすくなり、瑕疵担保責任を問われることになる。
読んだ本の中だと、ボブおじさんの本が、やっぱりしっくりくるなという個人的な感想がある。
UDP で送ってくるデータを受けて24/365 で停止しないWebAPI への繋ぎ込みという簡単な作業があって、振られた。
リークしてはいけないという事でmalloc は禁止で、グローバル変数を利用するという変なルールがあった。
Rust で書けばいいんじゃないかなと思ったけど、Rust 書くのもシンドイし、C/C++ で、しんどくて読みづらいコードを書いた。
あとで保守する人が大変そうだけど、そういうルールを決めたのは PL だしね。
なんか、特殊なPCI Express のカードからベンダーが用意しているSDK でデータ引っこ抜いてWebAPI へつなぎ込む部分をやった。
一応、SDK の使い方をパラ見して 1 日で作ったので、別に負担じゃなかったけど、素人にやらせるんなとは思った。
当たり前だが、DB 作って RestAPI を生やすのは現代のプログラマにとって自然にできなければならない。
なので、新規開発のサブモジュールのバックエンドを任せられた。
だが、ORM の癖を把握したり、発行されるクエリを確認したりするのは、疲れる。SQL を直書きするのはシンドイ。
結局SQL を直書きすることにしたけど、あまりいい決断ではなかったと思っている。
それ以外はフレームワーク に乗ってしまっていいので、書き捨てる分には楽だった。
最近だと、TypeScript でPrisma 使うのが、型安全でよさそうだなと思っている。
デプロイをEC2 直でやったりECS にしたりとしていたので、ベアメタルの知識が必要になった。
要するに systemd のいじり方とか、死活監視の仕方とか。
個人的には、クラウド嫌いなので、ベアメタルの方が安心できる。
Bind で権威DNS を管理して、postfix で絶対止めてはいけないメールサーバを管理するとかもあったけど、出来て当然ではある事だし。
未経験プログラマでも、月単価100 万以上で顧客に請求してるんだから、会社はそりゃ儲けるだろうと思った。
会社が一人前の経験N年のプログラマといったら、その通りに振舞う必要がある。顧客に責任はないのだから。
当たり前だが、Webディレクション、Webデザイン、Webプログラミング,Webマークアップ は、全て作業者であるプログラマの仕事になる。
個人的には、これが分かれている理由が良く分からないけど、分けたい人がいるんだろう。
デザインで、CSSフレームワークを使うと、その色が出るという事で、全部CSS は手書きしていた。
tailwind が出た現在では使っていればよかったなと思う。
結局、全く分からない中、手探りでデザインし、コードを書いて、顧客に 1 日 5 ~10 回リリースするという行為をした。
顧客は大手企業だったので、自社のエンジニアならもっと出来る、と叱責されまくったけど、だったら自社でやればいいじゃんと思った。
一応、今でもサービスは生きていて、ユニークユーザ数は上がっているらしい。
そして、焼き付け刃だったので、 WAI-ARIA を知らず、アクセシビリティへの配慮が足りない事が問題になってしまった。
これはなんとか保守対応にねじ込めたのでトラブルにならなかったけど、瑕疵担保責任と綱渡りだなと思った。
当たり前だが、リリースサイクルを短くしないと顧客はキレてしまうので、CI/CD を整えないといけない。
今はGithub Actions とかあるけど、昔は無くて Bitrise が高いからみたいな理由でAzure Pipelines でCI/CDフローを構築した。
もう Multi Stage Pipeline になってるだろうけど、Release Pipeline がGUIからしか設定できないのが辛みだった。
これを知らずに、コンソールでポチポチしていたので、IaC 出来てない事がバレた時に色々怒られてしまった。
本来はテストも自動テストを整えて、質保証をしてバグを減らさなければならない。
だが、テストを書くという手間を払えなかったので、人力テストしかできなかった。
一応、リグレッションテストを人力でやりまくったので、バグ発見曲線が結合テストでの IF 不一致しかない、という結果にはなったけど
自動化できれば費用が必要じゃなかったから、怠慢だと、責められてしまった。
未経験でも誓約書を盾に、振られた事全部を出来なくてはならない慣習があるので、プログラマはそんなに良い職業じゃないよ。
甘い考えで、プログラマになろうと思っているのなら、考え直した方がいいです。
最初は腹抱えて笑ってたけど、ふと周りを見たら笑えなくなった。
多分、分かってる技術者もいっぱい居たと思うんだけど、複数の企業とか絡んでて仕様変更出来なかったんじゃないかと思う。
上司、自部門、自社トップ、他社、セブンのシステム子会社、セブン本体・・・俺だったら絶対何もしない。中途半端に対策案とか出してこのカオスに何回も相手に合わせた説明資料作ってとかできない。
これで間に合わなかったら分かってて対策案出さなかったとかで責められるのが目に見えてるからだ。
セキュリティって簡単に見つかったりするくせに直そうとするととんでもなく苦労する。仕様変更だからリグレッションテストとか発生する。その工数誰が出すんだ。保守費でよろしく。いや、想定外に高くなります。そんなの仕様が書いたおたくが悪いんでしょ・・・
日本じゃ金出した奴が偉いんだ。お客様は神様です。フランチャイズだけは金を取ってる方が偉いけどな。
はっきり言うと、ちゃんとしたベンダーじゃない限りIDを使ったサービスなんて自前でしない方が良い。個人情報を扱うならなおさらだ。
どうしろと?firebase使えよ。