Movatterモバイル変換


[0]ホーム

URL:


はてラボはてな匿名ダイアリー
ようこそ ゲスト さんログインユーザー登録

「リグレッション」を含む日記RSS

はてなキーワード:リグレッションとは

2025-11-23

Gemini 3.0 Pro要緊急対策のご提言へのツッコミ

レポート引用している記事ツイートなど個人の感想の中身については基本スルー、それらを元に提言を生成したAIによる解釈ミスハルシネーションにツッコミ増田

ちなみにこの提言ページがGoogleインデックスされたのは4日前らしい。

レポート:

Gemini 3.0 Pro要緊急対策のご提言

https://paste.ssig33.com/8a22a6e9-a91d-4368-9b2f-a3d4567c7798


1

Gemini 3.0 Pro要緊急対策のご提言宛先:Google社 シェイン・グウ様差出人:アクセンチュア株式会社 生成AI戦略担当シニアコンサルタント日付:2025年11月21日

ShaneGuGoogleDeepMindであってGoogle社ではない。

差出人については「あなたアクセンチュア株式会社の生成AI戦略担当シニアコンサルタントです」と指示された結果なのかは知らん。

2

エグゼクティブマリ
主な問題点は以下の4点に集約されます事実性の著しい低下:Web検索を伴うタスクでのハルシネーションが悪化し、自信を持って虚偽の情報を生成する事例が多発。論理的思考能力の退行: 複雑な指示やコーディングタスクにおいて、前モデル(Gemini 2.5 Pro)よりも論理破綻やすくなっている。創造性と柔軟性の欠如:文章生成において「賢すぎる」が故に理屈っぽく、ユーザーが求める「人間らしい」文体への調整を拒否する傾向。API不安定化:パフォーマンス低下、APIエラー、予期せぬタイムアウトの増加が開発者体験を著しく損なっています

後で分かるが(たどり着く前に書くの飽きたんで提言読んで)、このうち

API不安定化:パフォーマンス低下、APIエラー、予期せぬタイムアウトの増加が開発者体験を著しく損なっています

についてはGemini 2.5 Proのユーザーが「おい調子悪いぞ!Gemini3出すためにそっちにリソース割いてんじゃね?」とか言ってるのを引っ張ってきて勘違いしてる。

論理的思考能力の退行: 複雑な指示やコーディングタスクにおいて、前モデル(Gemini 2.5 Pro)よりも論理破綻やすくなっている。

このソース不明

3

1.1.ハルシネーションと事実誤認の悪化:「自信満々に嘘をつく」AIGemini 3.0 Proの最も深刻な問題は、事実性が求められる場面でのハルシネーションの増加です。特に、貴社のコア技術であるはずのWeb検索連携において、致命的な欠陥が報告されています

自己認識に関するハルシネーション:

Redditでは、Gemini 3.0 Pro自身が「私はGemini 3 Proです。昨日(2025年11月18日リリースされました」と、架空ソース引用しつつ自己紹介する事例が投稿されました。これはモデル自身アイデンティティ知識カットオフに関して、もっともらしい嘘を生成していることを示唆しています。 Gemini 3's thought processis wild, absolutely wild. : r/singularity

参考記事ではモデル思考が混乱している様子と実際の応答との乖離が示されていて、最終的に正しいソースを元に正しく回答している。「架空ソース引用しつつ自己紹介する事例」ではない。

Googleは生のThinkingをユーザー提示せず、要約モデルで処理した結果を見せてるだけなんで思考部分と返事のすれ違いはよくある事。これについてもスレに書かれてある。

4

1.2.論理的思考コーディング能力の退行(リグレッション)Gemini 3.0 Proは「PhDレベルの知能」と謳われているにもかかわらず、多くのユーザー論理的思考コーディング能力において、前モデルであるGemini 2.5 Proからの明らかな退行を報告しています

論理破綻と浅い推論:

ユーザーからは「複雑な指示では論理破綻する」との指摘や Gemini研究リョウスケ (@chatgpt_ai_bard) / Posts / X、「浅い推論(shallow reasoning)」しかせず、「ひどいハルシネーション(terrible hallucinations)」を伴うため、「ベンチマーク用のモデルだ」と酷評されています。 lluviampo (@XXXadiov2)

ここでリンクされているGemini研究リョウスケはGemini大好きマンで、まったくそんな話をしていなかった。もしかすると呟いていたかもしれんが、それならリンク先がポストではなくアカウントホームになっているのは不自然

DeepResearchはよくソースの取り違えをして、別のソースで書かれてた事に間違った引用元をつける事はあるが、これがそうなのかは分からん

5

1.2.論理的思考コーディング能力の退行(リグレッション)・コーディング能力の劇的な低下

壊れたコードの生成:エージェントタスクにおいて「ループに陥り、壊れたコードを書き、10分以上動作しない」という深刻な不具合が報告されています。 prylo (@AgiGuard8)

元のツイでは

エージェントタスクは全くダメループする、壊れたコードを書く、フロントエンド以外のコーディングではトークンを異常な速さで消費する。このモデルは最悪だ。Gemini 3.0 Proは10分以上動作しない。

と言っているが、これをモデル不具合解釈するのは間違いだろう。たまにマジの不具合もあるが。

====

バグの再発と整合性喪失: ある開発者は、旧モデルで失敗したツール開発をGemini 3.0 Proで再試行したところ、一発で高品質コードが生成されたと肯定的評価する一方で、別の文脈では「直したはずのバグが復活する」「最終的にはコード整合性が取れなくなる」といった、旧モデルと同様の問題が依然として存在することも示唆されています。 【検証】Gemini 3.0 Proの実力は?かつてAI挫折した開発に「同じプロンプト」で挑んだ結果|start withAI

リンクされた記事の中身を要約すると「以前のGeminiはバグが復活するとか色々あったけどGemini 3.0 Proマジパネェ!」だった。

この箇所で「旧モデルと同様の問題が依然として存在する」と書かれているのは、旧モデル問題点として挙げた箇所をGemini3に対しての指摘だと勘違いした事による。

====

ベンチマークテストでの失敗:YouTubeでの検証動画では、チェス盤を自動プレイさせるタスクにおいて、Gemini 3のチェックポイントモデルが初めて失敗したことが示されました。これは、特定の複雑なロジックにおいて、以前のバージョンより劣っている可能性を示唆します。

ここでリンクされているのは、LMArenaでRiftrunnerモデルテストした結果をまとめた動画。LMArena覆面調査環境、RiftrunnerはGemini3らしきモデルコードネーム。LMArenaでは(出力から推測されてきた)Gemini3系列モデルが、これまでにいくつかでている。

よって「Gemini 3のチェックポイントモデルが初めて失敗した」の意味はつまり「これまでLMArenaテストされていたGemini3系列モデルのうち、Riftrunnerは初めてオートチェスのコーディングに失敗した」である

「以前のバージョンより劣っている可能性を示唆」とは、「Riftrunnerは、以前の匿名Gemini3系列モデルより劣っている可能性がある」という話で、そもそもRiftrunnerが、リリースされたGemini 3 Proなのかすら分からん

====

思考プロセスの出力への漏洩:

GitHubIssueやTwitterでは、モデルの内部的な「思考プロセス」が最終的な出力に混入し、制約を無視した意味不明コンテンツを生成するバグが報告されています。これは「初期の2.5 Proバージョンへの回帰(regression similar to early 2.5 Pro versions)」のようだと述べられています。 Jason L (@Jason1820067393)

GoogleAIStudioでの話。初期指示を忘れた結果思考が垂れ流しになり、垂れ流しのせいで更に指示を忘れたのだろうが、バグとは違う。

リンク先のツイートでは

I'm encountering a significantissuewith the Gemini 3.0 ProPreviewonAIStudio.

​Theraw "Thinking Process"is leaking into thefinal output, themodel fails to follow constraints, producing hallucinated/gibberish content.Like a regression similar to early 2.5 Pro versions.

と書かれていて、これは正しい観察。

ここに含まれIssueという単語により、Issueと言えばGitHubだと連想した結果「GitHubIssueやTwitterでは」になったのだろう。

6

飽きました。誰得だよ。

つーかいい加減DeepResearchは一気に生成すんのやめろよな。だいたいこうやって収集した情報がごっちゃになるんだから

Permalink |記事への反応(2) | 00:27

このエントリーをはてなブックマークに追加ツイートシェア

2025-08-18

anond:20250818130349

LLMでラベル付けしてそれを元に単純な機械学習モデルリグレッションやってるのを君独自蒸留って呼んでるんやろ?

それ素人我流やろ

それでも結果出してるならいいけどさ

だったらフォーラムとかで発表したらみんなおーってなるわけで

やらないでお前はレベル低いだのアホだの馬鹿だのここでやってるってことはそういうことじゃん

一回ちゃんと学んだほうがいいと思うよ

Permalink |記事への反応(2) | 13:56

このエントリーをはてなブックマークに追加ツイートシェア

2024-11-22

anond:20241122015401

テストを書かなかったら修正した後のリグレッションテストかいうクソ工程が大変なことになるぞ

Permalink |記事への反応(0) | 01:57

このエントリーをはてなブックマークに追加ツイートシェア

2023-05-22

anond:20230522101755

IEEEコードレビューに関する論文を出していて、それを読む限りではコードレビューバグの検出にはそれほど効果がないとのことでした。

品質の維持/向上やレビュー者間へのシステム理解速度に対して好影響を与えているとのこと)

過去システムリリース時や変更時にテストケースが記録されていないことによる不完全なリグレッションテストが行われていることやシステム仕様を誰も管理出来ていないことが問題なので、増田自身には問題はなかったんだがね。

失敗しちゃったからそういうところをしっかりやっていきましょうと言って組織を引っ張っていけるぐらい図太くなれればよかったんだけど…

まぁ、この失敗は何処かで生きてくると思うのでまだITエンジニアやってるなら頑張って欲しい。

Permalink |記事への反応(1) | 21:33

このエントリーをはてなブックマークに追加ツイートシェア

anond:20230522102533

いや、単体テストはそこそこ書かれてたし、バグ修正の際はリグレッションテストちゃんと書いてた。

から全てのテストも通ったからヨシ!的な流れでテストに含まれていなかったところに足を掬われたんよ。

でもデグレが起きないようにするのもコードレビュー目的ひとつって言ってもらえてちょい救われたわ。

ありがとう

Permalink |記事への反応(0) | 18:23

このエントリーをはてなブックマークに追加ツイートシェア

2022-08-27

センスの無い未経験年収300万強のプログラマとして就職して必要だったこ

学歴がよくなくて、就職が困難だったので中小SIer で働いていた。 (プライム案件を取ってこれる分マシらしい)

レキサルティレクサプロデパスのお世話になって続けてたけど、結局は薬でどうにかできず、辞めてしまった。

参考程度だけど、未経験の人が 300万 をもらうために、どのようなスキル必要かを、まとめておく。

ちなみにどれくらいプログラムが書けなかったかというと、競技プログラミング努力してもAtCoder黄色になれず青色のままってくらい。

AtCoder でいう、初心者から抜け出せないという、要するにセンスがないということなのだけど、そういう人も居そうなので、参考までに。

要するに

経験プログラマに対して、これだけ要求されるのだから、未経験の人は覚悟するようにという指針を提供したいので書いた。

入社時に覚悟しておかなければならない事

誓約書

基本的に、損害を与えた場合には、それを作業者補填するという誓約書を結ぶ。

要するに、捨て駒として扱って、失敗したら賠償しろ、という事になる。

このことを認識して、失敗しないように振舞ないと、連帯保証人含めて迷惑をかける事になる。

要するに、低賃金で未経験プログラマ案件にノーリスクで送りこんで、稼ぐための手段です。

必要だったスキル

ディレクション

基本的に PL (夢想家) →PM (御用聞き) →プログラマ という環境なので、プログラマ自分ディレクションして意思決定する必要がある。

例えば、下請け場合は、PM の御用聞きの結果のWBS に合わせないと、顧客からDM瑕疵担保責任がどうとか言われる。

社内開発の場合は、PL の方から直接、長時間の叱責を受けなくてはならない。

そういう不幸を防ぐためにも自分ディレクションして、PM の決めた実態を反映していないWBS に合わせて作業するスキル要求される。

基本的に手戻りは個人の過失になってしまうため、手戻りしないように考え抜いて意思決定をする、というのが重要になる。

これこそ、ガクチカと呼ばれる、頑張れますというスキルなので、学生時代に頑張っておけばよかったなぁ。

デザイン

こう見せたい、こう表現したい、という事を伝えるには、必然的デザイン知識必要になる。

創造思考デザインは切っても切り離せない概念で、デザインとは創造なのだから、当たり前である

ソフトウェアアーキテクチャも、ソフトウェア設計も、コーディングデザインと言えるかもしれない。

言語技術 (言語能力)

顧客と 1:1 で話す事がDM でもボイチャでも突発的に発生するので、いつ、いかなる時でも論理武装していなければならない。

まぁ、顧客であったり PL であったりはキレるのが仕事なので、それに対して理路整然と説明する必要がある。

なんとなく、では納得しないし、すぐ損害賠償請求とかそういう話にいくので、答えられないと持ち帰りますお茶を濁して、エマージェンシーになる。

後述する設計能力においても、課題を把握するための言語技術(言語能力)は重要ファクターだと思う。

ソフトウェア設計

C/C++システムプログラムフレームワーク基本的に無いので、自分概念を整理して、どのような変更、拡張があるかを考えて設計する必要がある。

この能力が弱いと、手戻りが発生しやすくなり、瑕疵担保責任を問われることになる。

読んだ本の中だと、ボブおじさんの本が、やっぱりしっくりくるなという個人的な感想がある。

ネットワークプログラム (C)

UDP で送ってくるデータを受けて24/365 で停止しないWebAPI への繋ぎ込みという簡単作業があって、振られた。

リークしてはいけないという事でmalloc禁止で、グローバル変数を利用するという変なルールがあった。

Rust で書けばいいんじゃないかなと思ったけど、Rust 書くのもシンドイし、C/C++ で、しんどくて読みづらいコードを書いた。

あとで保守する人が大変そうだけど、そういうルールを決めたのは PL だしね。

システムプログラム (C++)

なんか、特殊PCI Expressカードからベンダーが用意しているSDKデータ引っこ抜いてWebAPI へつなぎ込む部分をやった。

データの中の特殊信号を取りたかったらしい。

一応、SDK の使い方をパラ見して 1 日で作ったので、別に負担じゃなかったけど、素人やらせるんなとは思った。

Webバックエンド (Express/Fastify +PostgreSQL)

当たり前だが、DB 作って RestAPI を生やすのは現代プログラマにとって自然にできなければならない。

なので、新規開発のサブモジュールバックエンドを任せられた。

だが、ORM の癖を把握したり、発行されるクエリ確認したりするのは、疲れる。SQL を直書きするのはシンドイ。

結局SQL を直書きすることにしたけど、あまりいい決断ではなかったと思っている。

それ以外はフレームワーク に乗ってしまっていいので、書き捨てる分には楽だった。

最近だと、TypeScriptPrisma 使うのが、型安全でよさそうだなと思っている。

Nest.js個人的には好み。

Linux操作 (EC2 とか)

デプロイEC2 直でやったりECS にしたりとしていたので、ベアメタル知識必要になった。

要するに systemd のいじり方とか、死活監視の仕方とか。

個人的には、クラウド嫌いなので、ベアメタルの方が安心できる。

Bind権威DNS管理して、postfix絶対止めてはいけないメールサーバ管理するとかもあったけど、出来て当然ではある事だし。

Webフロントエンド (React/Vue)

会社Webアプリ案件を取ってきたので突っ込まれた。

経験プログラマでも、月単価100 万以上で顧客請求してるんだから会社はそりゃ儲けるだろうと思った。

会社が一人前の経験N年のプログラマといったら、その通りに振舞う必要がある。顧客責任はないのだから

当たり前だが、WebディレクションWebデザインWebプログラミング,Webマークアップ は、全て作業者であるプログラマ仕事になる。

個人的には、これが分かれている理由が良く分からないけど、分けたい人がいるんだろう。

デザインで、CSSフレームワークを使うと、その色が出るという事で、全部CSS手書きしていた。

tailwind が出た現在では使っていればよかったなと思う。

結局、全く分からない中、手探りでデザインし、コードを書いて、顧客に 1 日 5 ~10リリースするという行為をした。

顧客大手企業だったので、自社のエンジニアならもっと出来る、と叱責されまくったけど、だったら自社でやればいいじゃんと思った。

一応、今でもサービスは生きていて、ユニークユーザ数は上がっているらしい。

そして、焼き付け刃だったので、 WAI-ARIA を知らず、アクセシビリティへの配慮が足りない事が問題になってしまった。

これはなんとか保守対応ねじ込めたのでトラブルにならなかったけど、瑕疵担保責任と綱渡りだなと思った。

CI/CD 構築 (Azure Pipelines)

当たり前だが、リリースサイクルを短くしないと顧客はキレてしまうので、CI/CD を整えないといけない。

今はGithub Actions とかあるけど、昔は無くて Bitrise が高いからみたいな理由Azure Pipelines でCI/CDフローを構築した。

もう Multi Stage Pipeline になってるだろうけど、Release Pipeline がGUIからしか設定できないのが辛みだった。

IaC (Terraform)

当然だが、デプロイするためにはIaC を整える必要がある。

これを知らずに、コンソールポチポチしていたので、IaC 出来てない事がバレた時に色々怒られてしまった。

今はCDK とか便利なものが出来てるんだなぁ。

自動テスト

本来テスト自動テストを整えて、質保証をしてバグを減らさなければならない。

だが、テストを書くという手間を払えなかったので、人力テストしかできなかった。

一応、リグレッションテストを人力でやりまくったので、バグ発見曲線が結合テストでの IF 不一致しかない、という結果にはなったけど

自動化できれば費用必要じゃなかったから、怠慢だと、責められてしまった。

同じような未経験の人へ

経験でも誓約書を盾に、振られた事全部を出来なくてはならない慣習があるので、プログラマはそんなに良い職業じゃないよ。

甘い考えで、プログラマになろうと思っているのなら、考え直した方がいいです。

Permalink |記事への反応(3) | 00:18

このエントリーをはてなブックマークに追加ツイートシェア

2021-09-28

anond:20210928210925

あー。

やっちまったな。リグレッションテストちゃんとやっとけよ。

Permalink |記事への反応(0) | 21:12

このエントリーをはてなブックマークに追加ツイートシェア

2021-02-06

anond:20210206013028

専門のQAエンジニアを一人雇う。APIの変更が通知されればリグレッションテストを行う。実機テストもE2Eで自動化する。何もなくても週一でQAエンジニアが一通り実機テストする。

Permalink |記事への反応(1) | 01:34

このエントリーをはてなブックマークに追加ツイートシェア

2019-07-04

7payだけど

最初は腹抱えて笑ってたけど、ふと周りを見たら笑えなくなった。

多分、分かってる技術者もいっぱい居たと思うんだけど、複数企業とか絡んでて仕様変更出来なかったんじゃないかと思う。

上司、自部門、自社トップ、他社、セブンシステム子会社セブン本体・・・俺だったら絶対何もしない。中途半端対策案とか出してこのカオスに何回も相手に合わせた説明資料作ってとかできない。

これで間に合わなかったら分かってて対策案出さなかったとかで責められるのが目に見えてるからだ。

セキュリティって簡単に見つかったりするくせに直そうとするととんでもなく苦労する。仕様変更からリグレッションテストとか発生する。その工数誰が出すんだ。保守費でよろしく。いや、想定外に高くなります。そんなの仕様が書いたおたくが悪いんでしょ・・・

日本じゃ金出した奴が偉いんだ。お客様は神様ですフランチャイズだけは金を取ってる方が偉いけどな。

はっきり言うと、ちゃんとしたベンダーじゃない限りIDを使ったサービスなんて自前でしない方が良い。個人情報を扱うならなおさらだ

どうしろと?firebase使えよ。

関係ないけどセブンってPマークとかISMSとかとってんだっけ?

Permalink |記事への反応(1) | 20:58

このエントリーをはてなブックマークに追加ツイートシェア

 
ログインユーザー登録
ようこそ ゲスト さん
Copyright (C) 2001-2025 hatena. All Rights Reserved.

[8]ページ先頭

©2009-2025 Movatter.jp