⚡️New paper!⚡️ It’s tempting to interpret chain-of-thought explanations as the LLM's process for solving a task. In this new work, we show that CoT explanations can systematically misrepresent the true reason for model predictions.https://t.co/ecPRDTin8h 🧵 pic.twitter.com/9zp5evMoaA — Miles Turpin (@milesaturpin) May 9, 2023 著者の方が Twitterでまとめられていたので、これをざっくりリストするとこんな感じになるかと思います。 バイアスのかかったCoTによって誤っ