最近特に顕著だなと思ったから、今日久々にClaudeで「9.11と9.9はどちらが大きいですか?」を試したの
したら去年のモデルアップデート後は何もしなくても正解率9/10くらいだったのが、正解率1/10だったのね
そこで返答モードを切り替えると、Explanatoryスタイルだけは高確率で正解、それ以外(Concise・Formal)はボロボロなの
だからExplanatoryでも結論を先に持ってこさせたら、不正解率が激増した
次に、文脈を増やして「小数の比較において、9.11と9.9はどちらが大きいですか?」と聞いてみた
するとNormalスタイルもExplanatoryと同じように順序立てて最後に答えを出すようになったので正解率が上がり
ConciseとFormalは結論が先なので相変わらずボロボロ
結局、正解率があがる理由は「順を追って考えましょう」と段階的に考えて、最後に答えを出すからなんですね
思い返すと、モデルアプデ後のClaudeスタイルが追加される前の時期に正答率が高かった理由もそれかもしれない
やっぱりCoTしか勝たんな
9.11と9.9という2つの小数の大小関係を比較する必要があります。これは基本的な数学的比較問題です。
まず、両方の数を小数点以下2桁まで見てみましょう。
両方とも9なので、この部分では差がありません。
両方とも1なので、ここでも差がありません。
頭おかしなるで