「特殊文字」を含む日記

ChatGPTに「タツノオトシゴの絵文字を見せて」と依頼すると、あれでもないこれでもない、と長文の回答が生成され「暴走」のような状態になることがあるようです。
原因を推測できますか？

短く言うと、「タツノオトシゴの絵文字」はUnicodeに存在しないため、モデルが“あるはず”のものを探して取り繕おうとして自己修正ループに入り、過剰な訂正や長文化＝一種の暴走を引き起こすのが主因と考えられます。

起点：存在しない絵文字
Unicodeにはタツノオトシゴ絵文字が未収載で、ユーザー側でも“見たことがある気がする”というマンデラ効果が広がっているため、モデルは「ある前提」で答えようとして矛盾に陥りやすくなります。

暴走のメカニズム（推測）
応答最適化バイアス：LLMは要求充足志向が強く、「見せて」に応えようとして近縁の海洋系・動物系の絵文字を列挙→自己訂正→再列挙を繰り返し、長文化します。

自己整合ループ：途中で誤りに気づくと、過剰に修正しつつ確信度を演出する文言（“FINAL ANSWER”など）を挿入し、さらに矛盾を重ねる挙動が観測されています。

絵文字処理とトークナイズのノイズ：絵文字はサロゲートペアや多コードポイントで表現されることがあり、モデル内部のトークン分割や埋め込みが不安定化して挙動が乱れる一因になり得ます（研究文脈では、絵文字などの特殊文字が埋め込み空間を歪める“token segmentation bias”を指摘）。

絵文字“後付け”機構の影響（仮説）：一部のアシスタントは出力を“盛る”ために絵文字や口調を後段で付加する設計変更が指摘されており、本文と装飾が競合して文脈崩壊や過剰説明を誘発する可能性があります（コミュニティでの観測事例）。

なぜ「タツノオトシゴ」で顕在化？
近縁アイコンが多い：🐟🐠🐡🦐🦑🐙🐢🦎🐴🐉など“それっぽい”候補が多数あるため、モデルが次々に置換候補を提示して彷徨いがちです。

認知バイアスとの相乗：ユーザー側の確信表明や再要求がモデルの迎合バイアスを強め、誤情報を補強する形で長文化しやすくなります。

関連する研究的背景
特殊文字（絵文字）混入が判定器やLLMの安全フィルタを攪乱する“Emoji Attack”として学術報告があり、文字単位処理の不安定さが一般対話でも副作用を起こし得ることを示唆します。
Unicodeや特殊タグを用いたプロンプト撹乱の一般論として、文字処理の堅牢性問題が指摘されています。

実務的な回避策
事実前提を固定するプロンプトにする（「Unicodeにタツノオトシゴ絵文字は存在しない前提で、最も近い代替候補を3つだけ挙げて」など）と暴走を抑制しやすいです。
代替の提示を明示指示（「最も近い絵文字を1つだけ」）や、列挙制限を設けると長文化が減ります。
絵文字使用の過多は最近の挙動変更との指摘があるため、カスタム指示で「絵文字は使用しない」旨を設定すると安定します。

Permalink |記事への反応(0) | 09:30

ツイートシェア

2025-07-19

■anond:20250719223713

その末尾に🇨🇳ってつけてるのってなに？陰謀論者の間で流行ってるの？

よくこんな特殊文字を見つけてきたね。どうやって入力してるの？辞書登録でもしてるの？わざわざ？なんのために？

Permalink |記事への反応(3) | 22:40

ツイートシェア

2025-06-25

■anond:20250625141360

単純な半角英数字だけの投稿は禁止されてるけど、

スパマーは特殊文字とか混ぜて回避してる。

Permalink |記事への反応(1) | 14:18

ツイートシェア

2025-05-15

■anond:20250515192458

そもそも最初の「㎰5」自体がpとsではなく㎰で一文字の特殊文字を使ってるパチモンだからそれを汲んでいる流れなんだよね

Permalink |記事への反応(1) | 19:42

ツイートシェア

2024-09-24

■anond:20240924174252

BOM付CSV「CSVです」

BOM無しUTF8CSV「CSVです」

SJISですが特殊文字在りCSV「CSVです」

"は無くても改行可CSV「CSVです」

”の囲み省略は許さないCSV「CSVです」

”のエスケープ方法が\”CSV「CSVです」

Permalink |記事への反応(0) | 17:57

ツイートシェア

2024-08-28

■anond:20240828001128

いや、オレもそこそこのジジイだが、オアシスといえば富士通の日本語ワードプロセッサが筆頭で思い出されるw

当時某F社の駆け出しIT エンジニアだったもんで、オアシスのJIS標準外の特殊文字とか罫線記号とかモロモロを、メインフレーム(いわゆるホスト)の文書管理システムに送り込むため、文字コード変換テーブルをあーでもないこーでもない...つーて連日イジリ倒した苦い記憶が甦るっすよww

Permalink |記事への反応(0) | 10:20

ツイートシェア

2024-08-20

■anond:20240816153906

ありがとう。ChatGPTに作ってもらった。数値文字参照でないといけないというのは素人には教えてもらわないとたどり着けないので感謝です。

ハイライトされた文字列を <pre>タグで囲み、特殊文字を数値文字参照に変換し、改行を <br>タグに置き換えて、元の文章をその場で置き換えるブックマークレットを作成

javascript:(function() {
    function escapeHtml(text) {
        returntext.replace(/&/g, '&#38;')
                   .replace(/</g, '&#60;')
                   .replace(/>/g, '&#62;')
                   .replace(/"/g, '&#34;')
                   .replace(/'/g, '&#39;')
                   .replace(/\n/g, '<br>');
    }

    var s = window.getSelection().toString();
    if (s) {
        var escapedText = escapeHtml(s);
        var wrappedText = '<pre>' + escapedText + '</pre>';
        prompt('以下のコードをコピーしてください:', wrappedText);
    } else {
        alert("文字列をハイライトしてください。");
    }
})();

Permalink |記事への反応(2) | 15:05

ツイートシェア

2024-08-16

■anond:20240816092530

増田でコードを表示する方法を説明しますね。

記法

ふつうの投稿と違うのは以下の３点だけです。

コードは<pre>タグでくくる
コード内に登場する& や< や> などの特殊文字は数値文字参照に変換する
改行は使わずに、<br>タグを入れて全体を１行で書く

特殊文字は、実体参照（& や <）ではうまくいきません。数値参照を使ってください。

出したい文字	数値文字参照
&	&
<	<
>	>

例

このようなコードを表示したい場合、

const dinner = (chicken,curry) => {
    if (chicken &&curry) {
console.log('チキンかつカレー')
    }
}

このように入力してください。

<pre>const dinner = (chicken,curry) =&#62; {<br>    if (chicken &#38;&#38;curry) {<br>console.log('チキンかつカレー')<br>    }<br>}</pre>

Permalink |記事への反応(2) | 15:39

ツイートシェア

2024-03-17

■弊社情シスの許されない悪行

パスワードの変更を定期的に強制

パスワードは過去 3世代の流用を禁止

英字(大文字と小文字は別)数字特殊文字から4種以上11 文字以上が必要

アホなのか？必要以上に複雑化する意味がわからん

米国でも逆効果とされている所やぞ

Permalink |記事への反応(2) | 11:12

ツイートシェア

2024-02-01

■S&P500にありがちなこと

S&P500

↑&になってても気にしない

S＆P500

↑&を嫌って全角の＆を使う

ぱっと見気づかないが、横幅が長いので気づいたら違和感あり

S&P500

↑「&」と、HTMLにおける文字参照で出力する

可能なのは数値文字参照であり、文字実態参照で「&」としても出力されないことに注意

文字参照 - Wikipedia

特殊文字を表示する - Htmlの部屋

何の問題なく表示されているように見えるが、トラバツリーでは「S&P500」という表記になってしまう欠点を持つ

Permalink |記事への反応(1) | 08:04

ツイートシェア

2021-12-11

■log4j と増田

よそから入ってくるものがよく分からん

HTML 出力し得る文字列のHTML 特殊文字を全部エスケープして、内部からのものもエスケープしているので二重エスケープになっているのが増田

ログフォーマット文字列にユーザ入力値を入れる人がいたのが今回の問題

Permalink |記事への反応(0) | 04:37

ツイートシェア

2021-11-19

■anond:20211119223425

はてなによって特殊文字がサニタイズされてしまったな

Permalink |記事への反応(1) | 22:36

ツイートシェア

■anond:20211119223015

サニタイジングとは、テキストデータ上の「&」や「>」など特殊文字を一般的な文字列に変換する処理のことである。サニタイジング（sanitizing）はもともと「消毒する」「無害化する」などの意味を持つ英語である。

ひとつ賢くなった、ありがとう！

Permalink |記事への反応(1) | 22:34

ツイートシェア

2021-09-30

■名前で検索させろ

　また、各入力欄の「名前」にチェックを入れると、データベースのタイプ/データ/項目の名前で呼び出すことができます。可変DBでデータ IDの設定方法に「最初の文字列データ」を設定している場合、途中で書き換えられても指定できるのはゲーム開始時の文字列になります。なお、特殊文字による変数呼び出しはできませんので注意してください(例えば、\cself[5]と入力しても、コモンセルフ5の中身の文字列ではなく、"\cself[5]"という項目名が検索されます)。