Movatterモバイル変換

はてラボ

はてな匿名ダイアリー

ようこそゲストさん

ユーザー登録

はてな匿名ダイアリー

< anond:20250815143732 |anond:20250815163736 >

2025-08-15

■anond:20250814173040

同じプロンプトを俺のChatGPT55 thinkingにぶっこんらこうなった

`

GPT-5は何故重要なのか

長文。観測範囲の話。話半分で読んでほしい。

でも、黙っているとますます状況が悪くなる気がしたので書く。

結論（先に）**

GPT-5は重要だ。''なぜなら「壊れている」から''だ。

もっと正確に言えば、AI アプリケーションの''部品として使うと壊れ方が目立つ''。そして、その壊れ具合に対して''公開の場で指摘する人が驚くほど少ない''。この沈黙こそが、いまの“AI プロダクトを作っています界隈”の実態を映す鏡になっている。

壊れ方の具体（私の観測 範囲）**

''tool callの性能が著しく低い''

期待するツール実行をスキップしたり、呼び出し順が崩れたりする。「実行した」と言いながら実行していないケースも混じる※1。

''非協調的なふるまい''

指示に対して過剰防御や論点すり替えが起き、対話が前に進みにくい。

''無限ループや出力崩壊''

失敗からのリトライで同じ失敗を繰り返し、最終的に出力が壊れる。

''公式/非公式の“システムプロンプトガイド”を適用しても復旧が難しい''

プロンプトの衛生管理を頑張っても限界が見える。

''GPT-4.1からの置き換えで単純劣化''

同一テストスイートで回すと、通っていたE2Eが普通に落ちる（少なくない）。

ここで言っている「壊れている」は''API 連携の部品として''の話だ。お絵描きや雑談がダメという意味ではない。''“製品の裏側で回す部材”として危うい''という指摘。

> ※1 もちろん、プロンプトやミドルウェア側の実装不備が誘発している可能性もある。ここは後述の「反論と限界」を参照。

なぜそれが「重要」なのか**

普通、現場でAI アプリを作っている人は、新しいメジャーモデルが出たら''一晩でCanary切り替え''くらいはする。

そして10分で「これは本番に入れちゃダメな挙動だ」と分かる類の壊れ方が、今回多発した。''それなのに、表でそう言う人が少ない。''

この''“沈黙”自体が強いシグナル''になっている。

実は''本当にプロダクトを作って回している人が少ない''。
もしくは''PoC止まり''で、本番のSLOや回帰監視がない。
あるいは''マーケの都合やNDA''で言えない（が、なら内輪では警告がもっと回るはず）。

どの仮説でも、結論は同じだ。''「作ってません（作れてません）」が可視化された。''

そういう意味で、GPT-5は''最悪の壊れリリース''であり、同時に''最高の暴露リリース''になった。

よくある反論と、その限界**

''「お前のプロンプトが悪い」説''

それは常に真。だが''同一テスト''でGPT-4.1が安定し、GPT-5で落ちるなら劣化は劣化。

''「まだローンチ直後（調整中）」説''

ありうる。ただし''現場は“直後”でも回らないと困る''。リリースの意味は環境に依存しない。

''「API ラッパー/ツール実装側が未対応」説''

これもある。が、''その段差を埋められない程度の変更は業務影響が大きすぎる''。

''「ネガティブを言うと燃えるから黙る」説''

それはネットの事情。でも''内部の安全弁（アラート、KillSwitch、ロールバック報告）が表に出ない''のはやはり不自然。

''「実は皆、使っていない（要らなかった）」説''

これが一番効く。もしそうなら、''“AI プロダクトを作っています”の大半は広報レベル''ということになる。

では、開発者はどうするべきか（実務メモ）**

''回帰テストを“会話込み”で自動化''

E2Eに''ツールコールの監査ログ''（実行/未実行/戻り値）を必ず残す。

''Canary & KillSwitch''

バックエンドの''モデル切替を即時に戻せる''ように。手動トグルと自動フェイルオーバー両方。

''観測可能性（Observability）''

LLMの''失敗モードをカーディナリティ低めのタグで集計''（“未実行なのに実行報告”“ループ検知”“出力崩壊”）。

''プロンプト契約（Prompt Contract）''

''ツール I/Oのスキーマを明文化''し、破ったら''ハードFail''させる。中途半端に続行しない。

''人間の最後の砦''

本番系で''危険操作はHuman-in-the-Loop''。モデル更新時は''影で並走''させて勝率を測る。

''広報より先に“不具合ノート”''

社内/社外問わず、''再現条件と緩和策を先に出す文化''を。

まとめ**

GPT-5は''部品として壊れている側面が目立つ''。
それにもかかわらず''公開の指摘が少ない''。
この沈黙が示すのは、''本当に作って回している人が少ない''という不都合な真実。
よってGPT-5は、''最悪の壊れリリース''であり、''最高の“現実検出器”''でもある。

壊れていること自体は困る。だが、''壊れているときに世界の輪郭が見える''のもまた事実だ。

この機を逃さず、''テスト・観測・切替・公開''の体制を整えるしかない。

----

追記（FAQっぽいもの）**

''Q. じゃあGPT-5は使うべきでない？''

A. ''今この瞬間に“中核部品”として置き換えるのは非推奨''。並走・影運用で勝率を測るのが堅い。

''Q.特定のユースケースなら強いのでは？''

A. ありうる。だが''tool callが絡む業務連携''では痛手が出やすい。スタンドアロン用途と切り分けて評価を。

''Q. そのうち直るよね？''

A. 直る可能性は高い。ただし''“直るまでの損失”を最小化する設計''はあなたの仕事。

> 以上、個人の観測と推測に基づく意見。反証歓迎。再現ログを持っている人はぜひ出してほしい。ログが集まるほど早く“壊れ方の型”が固まって、世界は前に進む。

天然知能の感想

無茶苦茶ハルシネーション起こしてる。なんだこれ。

Permalink |記事への反応(0) | 16:38

ツイートシェア

記事への反応 -

GPT-5は何故重要なのか
GPT-5は壊れている。これは感情的な表現がどうこうという話ではなく、技術的事実としての話だ。とくにtool call周りの挙動は致命的に悪化している。「コーディングアシストに特化し...
- anond:20250814173040
  同じプロンプトを俺のChat GPT55 thinkingにぶっこんらこうなった ` GPT-5は何故重要なのか長文。観測範囲の話。話半分で読んでほしい。でも、黙っているとますます状況が悪くなる気がし...
- anond:20250814173040
  クソバカって…増田の無駄な威勢の良さ、不必要な口の悪さを体現してしまっている。
- anond:20250814173040
  使ってる感じシステムプロンプトの簡素化で省力モードで動かしてる気がするしばいてやるとちゃんと働くが、指示が甘いと基本手抜きしようとするなんか3.5の時代に逆戻りしたような...
- anond:20250814173040
  LLMあるあるの繰り返しハルシネーションかな
- anond:20250814173040
  API利用して使ってるけど、5に切り替えて特に大きな劣化は感じてないよ。おそらくあなたの使い方や入力に問題があるから、出力も問題が生じているんだと思うよ。 GPT-5 APIの説明は読...
- anond:20250814173040
  日本語で使うと駄目らしい
- Gemini 2.5 Pro 版
  GPT-5が出たな。まあ、AI触ってる人間なら、とりあえずは触ってみるだろ。俺もそうだ。早速、今までGPT-4.1で動かしてた自前のアプリケーションのモデルを、期待に胸を膨らませて`gpt-5`...
- anond:20250814173040
  OpenAIは、親分のMicrosoftと同じく、開発者をないがしろにして一般ピープルに寄せたってことだと感じた。一般ピープル向けに高度な推論を提供しても電気の無駄だし。

記事への反応（ブックマークコメント）

permalinkTwitterでシェア Facebookでシェア

全てのコメントを見る

人気エントリ

過去の人気エントリをもっと見る

注目エントリ

はてなブックマークでもっと見る

ログインユーザー登録

ようこそゲストさん

Copyright (C) 2001-2026 hatena. All Rights Reserved.

[8]ページ先頭

©2009-2026 Movatter.jp