Q.
ChatGPTに「タツノオトシゴの絵文字を見せて」と依頼すると、あれでもないこれでもない、と長文の回答が生成され「暴走」のような状態になることがあるようです。
原因を推測できますか?
A.
短く言うと、「タツノオトシゴの絵文字」はUnicodeに存在しないため、モデルが“あるはず”のものを探して取り繕おうとして自己修正ループに入り、過剰な訂正や長文化=一種の暴走を引き起こすのが主因と考えられます。
Unicodeにはタツノオトシゴ絵文字が未収載で、ユーザー側でも“見たことがある気がする”というマンデラ効果が広がっているため、モデルは「ある前提」で答えようとして矛盾に陥りやすくなります。
応答最適化バイアス:LLMは要求充足志向が強く、「見せて」に応えようとして近縁の海洋系・動物系の絵文字を列挙→自己訂正→再列挙を繰り返し、長文化します。
自己整合ループ:途中で誤りに気づくと、過剰に修正しつつ確信度を演出する文言(“FINALANSWER”など)を挿入し、さらに矛盾を重ねる挙動が観測されています。
絵文字処理とトークナイズのノイズ:絵文字はサロゲートペアや多コードポイントで表現されることがあり、モデル内部のトークン分割や埋め込みが不安定化して挙動が乱れる一因になり得ます(研究文脈では、絵文字などの特殊文字が埋め込み空間を歪める“token segmentation bias”を指摘)。
絵文字“後付け”機構の影響(仮説):一部のアシスタントは出力を“盛る”ために絵文字や口調を後段で付加する設計変更が指摘されており、本文と装飾が競合して文脈崩壊や過剰説明を誘発する可能性があります(コミュニティでの観測事例)。
近縁アイコンが多い:🐟🐠🐡🦐🦑🐙🐢🦎🐴🐉など“それっぽい”候補が多数あるため、モデルが次々に置換候補を提示して彷徨いがちです。
認知バイアスとの相乗:ユーザー側の確信表明や再要求がモデルの迎合バイアスを強め、誤情報を補強する形で長文化しやすくなります。
関連する研究的背景
特殊文字(絵文字)混入が判定器やLLMの安全フィルタを攪乱する“Emoji Attack”として学術報告があり、文字単位処理の不安定さが一般対話でも副作用を起こし得ることを示唆します。
Unicodeや特殊タグを用いたプロンプト撹乱の一般論として、文字処理の堅牢性問題が指摘されています。
実務的な回避策
事実前提を固定するプロンプトにする(「Unicodeにタツノオトシゴ絵文字は存在しない前提で、最も近い代替候補を3つだけ挙げて」など)と暴走を抑制しやすいです。