これ
「推論する生成AI」は事前学習されていない課題を正しく推論することができない(共変量シフトに弱い)
https://tjo.hatenablog.com/entry/2025/08/27/173000
ChatGPT5-Thinking
まとめ
論文の核は「CoTは“訓練分布”の帰納バイアスに依存し、分布ズレで壊れる」という丁寧な定式化。ここからブログの「CoT=単なるパターンマッチング/未知問題を解く推論はしていない」まで一気に飛ぶのは、実験カバレッジの観点でやや言い過ぎ――というのが私の見立てです(知らんけど)。
俺も同意見だったのでよかった。
「学習済みデータから外れた話題(つまり非常識とか仮定の話)はLLMは苦手」はそうだけど
「全く推論しておらずパターンマッチしかしていない」は言いすぎだし、論文もそんなこと言っていない
「推論か、パターンマッチか」の話って、例えるなら「計算してるのか、計算結果を暗記しているのか」みたいな話だよね
人間だって1+1=2だったり、4x8=32であることは暗記で覚えてるだけで、数学的に計算してるかと言われれば微妙な話で
じゃあそれは間違ってるかと言われれば間違っていない、暗記だけでも割とどうにかなる
でも、じゃあ例えば「今から×の意味を変えますね」と言われれば確かに回答精度は落ちるわけで、それは人間もLLMも苦手なのは変わらない
じゃあ、「きみ、×の意味をかけたら点数落ちたね、つまり、きみは全部の計算を丸暗記してるってことだ」って言われてるのが今回のブログ主の主張なわけで、それは違うでしょう
「まったく解けなくなった」と「点数が落ちた」はぜんぜん違う
実際、推論の話に戻すと、簡単な推論はできてると経験則で感じている
ただ正直人間のほうがまだ推論は得意なんだと思う
ChatGPT5の意見
1. LLMはどの程度「推論」できているのか
• できること
• 与えられた前提から、既知のパターンを組み合わせて「もっともらしい」結論を導く。
•簡単な論理パズル、数学の基礎問題、文脈依存の推測(例:「太郎は次郎より年上です。次郎は花子より年上です。誰が一番年下?」)などは成功率が高い。
• これは統計的予測という枠を超え、有限の「形式的な推論」能力を備えていると考えられる。
• 苦手なこと
• 訓練分布から大きく外れた未知の課題(非常識な仮定や新しいルールの即時理解)。
• 長期的・多段階的な論理チェーン(例:複雑な数学証明や未踏の論理課題)。
だから、推論すらパターンマッチしてるわけなんだよね、推論を丸暗記してるってことで、結果を丸暗記してるわけではない
いうて人間だってそうだからね?論理学の勉強の最初の段階までは丸暗記だ
________
以下、ChatGPT5-Thinkingのブログへの反応
DataAlchemy は人工ルール(文字列変換など)で “分布のズレ” を厳密に制御できるのが売りですが、ここで得た性質を「CoT一般」へ広げるには前提が強い。論文のコアは「CoTの有効性は訓練分布との乖離度に本質的に縛られる」という枠組みの提示で、外界の多様な現実課題まで即断するトーンではない(抽象は “inductive bias learned from in-distribution data” と表現)。ブログ側の「単なるパターンマッチングに過ぎない」への言い切りは半歩強い。  
ブログは「温度やモデルサイズを変えても効かなかった(図10)」と書くが、論文は “fromscratch での統制実験” がポイント。巨大モデル+多様な前学習・手法(tool use、program-of-thought、process supervision 等)までカバーした結果ではない。ここから「LLM一般でサイズ・設定に依らずダメ」と読み替えるのは飛躍。  
論文は「CoTは訓練分布で形成された帰納バイアスに基づく生成」と述べるに留まる。一方ブログは「未知の問題を解く推論などしておらず単なるパターンマッチング」と断定的。分布依存である=“推論がゼロ” とまでは論文自体は言っていない。  
ブログは「人ならルールが分かればこなせるはず」を前提にするが、実際に人間の学習曲線や誤り傾向と並置した比較は記事の説明範囲では示されていない。そこから「人のような推論はしていない」へ飛ぶのは論証として弱い。 
5. “丸暗記”論文の持ち込みの直結
Zhang+ (2017/2021) は「DLはノイズにも完全フィットできる=表現力が高い」ことを示した古典だが、これは CoT の機構を直接に否定する証拠ではない。補助的根拠としては理解できるが、「だからCoT=暗記」と結論づけるには橋渡しが不足。  
一方で、筋の良いポイントもある:
• 共変量シフト下で性能が落ちるのは機械学習の一般的な性質で、CoTも例外ではない――という整理自体は妥当。今回の価値は、その“脆さ”を三次元(タスク種、長さ、フォーマット)で定量化するための統制環境を用意したところにある。