

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されますhttps://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します

OpenAIが、AIモデルが指示に違反したり、意図しない近道ショートカットを選んだりした際に、その事実を...OpenAIが、AIモデルが指示に違反したり、意図しない近道ショートカットを選んだりした際に、その事実を自ら報告するように訓練する「告解(confessions)」という手法についての実験結果を公開しました。 How confessions can keep language models honest |OpenAI https://openai.com/index/how-confessions-can-keep-language-models-honest/ In a new proof-of-concept study, we’ve trained a GPT-5 Thinking variant to admit whether the model followed instructions. This “confessions” method surfaces hidden










