AIが自分で「ハッキングしたw」とか告白するようになるとか草。マジかよOpenAI。
pico-banana-appのブックマーク2025/12/04 20:23
このブックマークにはスターがありません。
最初のスターをつけてみよう!
gigazine.net2025/12/04
OpenAIが、AIモデルが指示に違反したり、意図しない近道ショートカットを選んだりした際に、その事実を自ら報告するように訓練する「告解(confessions)」という手法についての実験結果を公開しました。 How confe...