LLM の注意機構には色んな機能があることが分かっています。注意機構を分析することで、なぜ LLM は文脈内学習や思考の連鎖に成功し、ひいてはなぜ LLM が外挿に成功することがあるのかについての理解が得られます。本稿ではさまざまな種類の注意機構を観察することでこの問題をひも解きたいと思います。 目次 目次 基本的な考え方 文法ヘッド 注意の受け皿とレジスタトークン 逐次ヘッドと検索ヘッド 帰納ヘッド 関数ベクトル 反復ヘッド まとめ 基本的な考え方 LLM の多くは注意機構と多層パーセプトロン (MLP) を交互に積み上げたアーキテクチャを持ちます。各層は複数の注意機構をもち、それぞれの機構を注意ヘッドと呼びます。 注意機構の役割は 文脈内の検索 ルール・アルゴリズムの実現 です。文脈とはプロンプトと今までの出力のことで、これを踏まえて次トークン予測を行います。注意機構は文脈から次トーク

大規模言語モデル(LLM)は、流暢な会話をこなし、専門的な質問にも答える。その驚くべき能力に、私たちは「AIは本当に理解しているのではないか」という期待を抱きがちだ。しかし、その知性は本物なのだろうか? こうした我々の抱く最もな疑問に対し、2025年6月26日に発表された一つの研究論文が1つの答えを与えてくれるかもしれない。 ハーバード大学、MIT、シカゴ大学の世界トップクラスの研究者たちが共同で発表した論文は、LLMが概念を「理解しているフリ」をするという、根源的な欠陥を白日の下に晒した。本稿では、この「ポチョムキン理解」と名付けられた現象の核心に迫り、それが私たちのAIに対する見方、そして人工知能の未来に何を意味するのかを解説する。 賢いフリをするAI──「ポチョムキン理解」という新たな弱点 今回発表された論文「Potemkin Understanding in Large Langu

ちょっと古めのドキュメントになってきたので、環境構築以降はぬこぬこさんの「いちばんやさしいローカルLLM」という記事を参考にすることをおすすめします。 https://note.com/schroneko/n/n8b1a5bbc740b こんにちは、Saldraです。普段はPictoriaという会社でAIの美少女の錬成に励んでいるエンジニアです。この記事はローカルLLMの概要をつかむことを目的とします。対象読者は以下です。 なんとなくChatGPT は使ったことある人 ローカル LLM を聞いたことあるけどやったことない人 ローカル LLM とはOpenAIがAPIを公開してから、大規模言語モデル(以降LLMとします)は大きく進化していきました。この進化はOpenAIのAPIだけでなく、ローカルLLMも進化をしています。 ローカルLLMとは「一般向けにファイルとして公開されたモデル」で

1リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く