Movatterモバイル変換


[0]ホーム

URL:


はてラボはてな匿名ダイアリー
ようこそ ゲスト さんログインユーザー登録
< anond:20250211183705 |anond:20250212093954 >

2025-02-12

あるAIモデルバカになったと言われる現象

最近特に顕著だなと思ったから、今日久々にClaudeで「9.119.9はどちらが大きいですか?」を試したの

したら去年のモデルアップデート後は何もしなくても正解率9/10くらいだったのが、正解率1/10だったのね

そこで返答モードを切り替えると、Explanatoryスタイルだけは高確率で正解、それ以外(Concise・Formal)はボロボロなの

ボロボロ共通するのは、結論が先に来ること

からExplanatoryでも結論を先に持ってこさせたら、不正解率が激増した

次に、文脈を増やして「小数比較において、9.119.9はどちらが大きいですか?」と聞いてみた

するとNormalスタイルもExplanatoryと同じように順序立てて最後に答えを出すようになったので正解率が上がり

ConciseとFormalは結論が先なので相変わらずボロボロ

結局、正解率があがる理由は「順を追って考えましょう」と段階的に考えて、最後に答えを出すからなんですね

思い返すと、モデルアプデ後のClaudeスタイルが追加される前の時期に正答率が高かった理由もそれかもしれない

やっぱりCoTしか勝たんな

オマケ

9.119.9という2つの小数の大小関係を比較する必要があります。これは基本的数学比較問題です。

まず、両方の数を小数点以下2桁まで見てみましょう。

9.11

9.90(9.9は9.90と同じです)

両方とも9なので、この部分では差がありません。

両方とも1なので、ここでも差がありません。

9.11場合は1

9.90の場合は0

1は0より大きいので、9.11の方が大きいと結論づけられます

おかしなるで

Permalink |記事への反応(0) | 09:43

このエントリーをはてなブックマークに追加ツイートシェア

記事への反応 -

記事への反応(ブックマークコメント)

全てのコメントを見る

人気エントリ

注目エントリ

ログインユーザー登録
ようこそ ゲスト さん
Copyright (C) 2001-2025 hatena. All Rights Reserved.

[8]ページ先頭

©2009-2025 Movatter.jp