同じプロンプトを俺のChatGPT55 thinkingにぶっこんらこうなった
`
もっと正確に言えば、AIアプリケーションの''部品として使うと壊れ方が目立つ''。そして、その壊れ具合に対して''公開の場で指摘する人が驚くほど少ない''。この沈黙こそが、いまの“AIプロダクトを作っています界隈”の実態を映す鏡になっている。
期待するツール実行をスキップしたり、呼び出し順が崩れたりする。「実行した」と言いながら実行していないケースも混じる※1。
指示に対して過剰防御や論点すり替えが起き、対話が前に進みにくい。
失敗からのリトライで同じ失敗を繰り返し、最終的に出力が壊れる。
同一テストスイートで回すと、通っていたE2Eが普通に落ちる(少なくない)。
ここで言っている「壊れている」は''API連携の部品として''の話だ。お絵描きや雑談がダメという意味ではない。''“製品の裏側で回す部材”として危うい''という指摘。
> ※1 もちろん、プロンプトやミドルウェア側の実装不備が誘発している可能性もある。ここは後述の「反論と限界」を参照。
普通、現場でAIアプリを作っている人は、新しいメジャーモデルが出たら''一晩でCanary切り替え''くらいはする。
そして10分で「これは本番に入れちゃダメな挙動だ」と分かる類の壊れ方が、今回多発した。''それなのに、表でそう言う人が少ない。''
どの仮説でも、結論は同じだ。''「作ってません(作れてません)」が可視化された。''
そういう意味で、GPT-5は''最悪の壊れリリース''であり、同時に''最高の暴露リリース''になった。
それは常に真。だが''同一テスト''でGPT-4.1が安定し、GPT-5で落ちるなら劣化は劣化。
ありうる。ただし''現場は“直後”でも回らないと困る''。リリースの意味は環境に依存しない。
これもある。が、''その段差を埋められない程度の変更は業務影響が大きすぎる''。
それはネットの事情。でも''内部の安全弁(アラート、KillSwitch、ロールバック報告)が表に出ない''のはやはり不自然。
これが一番効く。もしそうなら、''“AIプロダクトを作っています”の大半は広報レベル''ということになる。
E2Eに''ツールコールの監査ログ''(実行/未実行/戻り値)を必ず残す。
バックエンドの''モデル切替を即時に戻せる''ように。手動トグルと自動フェイルオーバー両方。
LLMの''失敗モードをカーディナリティ低めのタグで集計''(“未実行なのに実行報告”“ループ検知”“出力崩壊”)。
''ツールI/Oのスキーマを明文化''し、破ったら''ハードFail''させる。中途半端に続行しない。
本番系で''危険操作はHuman-in-the-Loop''。モデル更新時は''影で並走''させて勝率を測る。
社内/社外問わず、''再現条件と緩和策を先に出す文化''を。
壊れていること自体は困る。だが、''壊れているときに世界の輪郭が見える''のもまた事実だ。
この機を逃さず、''テスト・観測・切替・公開''の体制を整えるしかない。
----
A. ''今この瞬間に“中核部品”として置き換えるのは非推奨''。並走・影運用で勝率を測るのが堅い。
A. ありうる。だが''tool callが絡む業務連携''では痛手が出やすい。スタンドアロン用途と切り分けて評価を。
A. 直る可能性は高い。ただし''“直るまでの損失”を最小化する設計''はあなたの仕事。
> 以上、個人の観測と推測に基づく意見。反証歓迎。再現ログを持っている人はぜひ出してほしい。ログが集まるほど早く“壊れ方の型”が固まって、世界は前に進む。
GPT-5は壊れている。 これは感情的な表現がどうこうという話ではなく、技術的事実としての話だ。 とくにtool call周りの挙動は致命的に悪化している。 「コーディングアシストに特化し...
同じプロンプトを俺のChat GPT55 thinkingにぶっこんらこうなった ` GPT-5は何故重要なのか 長文。観測範囲の話。話半分で読んでほしい。 でも、黙っているとますます状況が悪くなる気がし...
クソバカって…増田の無駄な威勢の良さ、不必要な口の悪さを体現してしまっている。
使ってる感じシステムプロンプトの簡素化で省力モードで動かしてる気がする しばいてやるとちゃんと働くが、指示が甘いと基本手抜きしようとする なんか3.5の時代に逆戻りしたような...
LLMあるあるの繰り返しハルシネーションかな
API利用して使ってるけど、5に切り替えて特に大きな劣化は感じてないよ。 おそらくあなたの使い方や入力に問題があるから、出力も問題が生じているんだと思うよ。 GPT-5 APIの説明は読...
日本語で使うと駄目らしい
GPT-5が出たな。 まあ、AI触ってる人間なら、とりあえずは触ってみるだろ。俺もそうだ。早速、今までGPT-4.1で動かしてた自前のアプリケーションのモデルを、期待に胸を膨らませて`gpt-5`...
OpenAIは、親分のMicrosoftと同じく、開発者をないがしろにして一般ピープルに寄せたってことだと感じた。 一般ピープル向けに高度な推論を提供しても電気の無駄だし。