GPT-4 相当のモデルは司法試験や大学入試、AP Calc などで人間平均を超えるスコアを記録。これは暗記だけでなく意味・論理の運用ができないと無理。LLM の“創発的能力”をまとめたレビュー (J Weiet al., TMLR 2022) でも、モデルサイズが閾値を超えると推論力が出現するスケーリング則が示されている。

Anthropic の「AI Microscope」チームは、同じ質問を英・仏・中で与えても共通の概念特徴が活性化することを報告。モデル内部では単語列ではなく、言語非依存の意味空間で思考している証拠を示している。

Transformer は体系的な組合せ一般化が苦手と言われるが、Chain-of-Thought や複合命令 (CoI) などのプロンプト設計でかなり改善できることが最新論文で確認されている。

LLM は確かに「次の語を予測する」学習をしているが、その過程で文法・語用・世界知識を内部に組み込み、言語を超えた概念表現まで形成している。「予測タスク＝理解ゼロ」と断じるのは、最新の実験データには合わない。

偉そうに書いたけど何年も前から常識レベルのことしか書いてない。

2023-01-15

お前は人工知能より頭がいいのか？研究によると、パラメータの大きな言語モデルプログラムが人間の知性を凌駕する可能性があることがわかっている。

Generative Pre-trained Transformer 3が、知能を測る一連の推論テストにおいて平均的な大学生を上回っていることが発見されている。例えばN-gram LMsはカウントベースのマルコフモデルパラメータフィッティングを用いるが、GPT3はより巨大なパラメータを持つ。入力に対して人間のようなテキスト、つまり確率の高いものを出力する。GPT3はOpenAIが生み出した技術で、言語翻訳やチャットボットなどのアプリケーションのテキスト生成など、さまざまな用途がある。

1750億のパラメータを持つ、最大かつ最も強力な言語処理AI モデルのひとつだ。

ではGPT-3は「天才」なのか？研究では、一般知識、SAT 試験のスコア、IQという3つの重要な要素において、プログラムが人間に匹敵する能力を持つかどうかを調べられた。プレプリントサーバー「arXiv」で公開された結果によると、AI 言語モデルは3つのカテゴリーすべてにおいて、人間よりも高いパーセンタイルでゴールしていることがわかっている。

実際のIQ テストでのGPT-3の成績はどうか？平均的な大学受験生を相手に、様々な言語モデルが分析的推論問題でどのような結果を出したかについての調査結果を発表された。AIが明らかに勝者となった。とのことhttps://twitter.com/AiBreakfast/status/1607594052785930240

"GPT-3は、抽象的なパターン誘導に驚くほど強い能力を示し、ほとんどの場面で人間の能力と一致するか、あるいはそれを上回ることが分かりました。我々の結果は、GPT-3のような大規模言語モデルが、広範な類推問題に対するゼロショット解を見つけるための創発的能力を獲得したことを示しています"と研究者は言う。

同チームは、GPT-3が「明示的に訓練されていないにもかかわらず、生物学的知性がとるのとは根本的に異なる経路を経て、人間の類推の基礎と考えられているものと同様のメカニズムを開発することを余儀なくされた」ことを付け加えている。

GPT-3は、すべての問題タイプにおいて、生成精度...および多肢選択精度ともに、人間の参加者を上回った。https://twitter.com/AiBreakfast/status/1607594057735278592

この研究によると、ほとんどの質問に答え、人の代わりに論文の下書きまでできるAI プログラムは、問題をゼロから解かなければならないときや、多肢選択式のテストから選択するとき、人間を上回ったそうだ。

AIの専門家で作家のアラン・D・トンプソン博士は、GPT-3が120以上のIQを示すことを示唆している。

結論: ということで、GPTも所詮はIQ120程度ってことだな。

いや、純粋なプログラミング能力に限定したつもりはないよ。一般的な技術力の話。レイトレーシングだってFPGAだってコンパイラだって純粋なプログラミング能力とはいえない。だいいちそういうのを連携させるというカリキュラムは実務的とは言わないまでもその辺の給料もらうためだけに書いてるだけのプログラマにはできない芸当をやっていることは確かでしょ(馬鹿にするわけじゃないが)。ギークとまでは呼べないかもしれない。ただそのへんのweb ギークにすぐにできる芸当ではない。当たってるかどうか知らないが、私が知っていたadvancedなトピックとしてはフォトンマッピング、HW/SWコデザイン、関数型プログラミング言語とかか。むしろページランクも分かち書きもN-gramも、web系のギークが得意な話題ではないかなとも思う。