
はてなキーワード:微分とは
僕は今夜、ルームメイトがリビングで実験的にベーコンを低温調理している匂いを鼻孔の厳密な位置で嗅ぎ分けながらメモ帳を開いた。
朝は6時17分に目覚ましを止め(そのミリ秒単位の遅延は許容されない)、6時18分にコーヒーの比率を変える習慣を行い、靴下は左から右へ、座席は常にソファの北東端(座る位置は位相対称性を破らない)である。
食事は火曜日のパスタの残り物は三等分して水曜と木曜の朝食に回す。洗濯は必ず偶数週の水曜に行い、洗剤は0.8倍希釈、脱水は中速、干す向きは北向き。
ルームメイトがドアに爪痕をつけたら即座にログを取り、隣人が郵便物を誤って取った場合は「郵便誤配報告フォーム」を三回に分けて提出する。
こうした儀礼を守ることで僕の内的位相空間が安定するのだと論理的に考えている。
今日の思考の核は超弦理論と量子情報の交差点についての、かなり尖った自己流の定式化にある。
まず、僕は物理的直感を避けて抽象数学で事象を語る。弦理論の摂動系列を有限厚さの∞-圏としてモデル化し、ブレーンを対象、開弦状態をモノイド的なホモトピー演算子として扱う。
局所座標の代わりにファクタリゼーション代数を使い、スパイダー図式を経て得られる交叉相互作用を高次ホモトピー群のコハート化として再解釈することを提案する。
ER=EPRについては、古典的なワームホール=絡み合いという語り方を離れて、僕はエントロピー・双対モジュールの同値性という言葉で捉えている。
つまり、二つのエントロピックモジュールの被覆圏と、それらに対応する重ね合わせのコボルディズム(圏論的な結合双対)を同一視することでER=EPRを圏論的に定式化できるのではないかと考えている。
これを超弦理論に接合するには、AdS/CFT 的なホログラフィック双対の場で、境界側の張力的演算子族が内部のブレーンカテゴリ(例えばフカヤカテゴリやコヒーレント層の導来圏)に対応するという見方を取り入れる。
すると、エントロピー双対モジュールの同値性は、境界とバルクの間で起こる圏の再同型化として現れ、ER=EPRは本質的に圏的ホログラフィーの一命題になる。
ここで僕が提案する小さな拡張は、量子誤り訂正符号のコード代数を∞-圏の射として扱い、その可換性条件がワームホールのコボルディズムの可逆性と一致するというものだ。
これにより、エントロピーの再構成操作がブレーン間のファンクターとして自然に理解でき、局所性の回復を説明する新しい枠組みが得られると僕は思う(これは僕の勝手な定式化で、厳密性は今後の証明を待つ)。
今日はそのメモを、黒板に書く代わりにルームメイトの背中越しにノートに書き留めた。
ところで、僕は靴の磨き方にも数学的基準を設けている(円周率の小数を用いた磨き順列を使っている)。
出かける前のチェックリストはトポロジー的順番、たとえば鍵→財布→スマホ→ペンという順序は位相連結成分を最小化するから合理的だ、と説明すると友人たちは顔をしかめるが、これを守ると予測可能性が上がる。
今夜はRPG系ではELDENRINGのビルド論とRTAコミュニティのメタ的動向を気にしていて、この作品が2022年にFromSoftwareからリリースされ、多くのビルド最適化やメタが確立されていることは周知の事実だ(初リリースは2022年2月25日)。
また、このIPは映画化プロジェクトが進行中で、A24が関与しているという報(映画化のニュース)が最近出ているから、今後のトランスメディア展開も注視している。
僕はソウルライクのボス設計とドロップ率調整をゲームデザインの位相安定化とは呼ばないが、RTA勢のタイム削り技術や周回遺伝(NG+)の最適手順に対して強い敬意を持っている。
ファンタジーRPGの装備付け(メタ)に関しては、装備のシナジー、ステータス閾値、クラフト素材の経済学的価値を語るのが好きで、例えば「その装備のクリティカル閾値を満たすために残すステータスポイントは1だが、その1が戦闘効率を%で見るとX%を生む」というような微分的解析を行う。
FFシリーズについては、Final Fantasy XVIがPS5向けに2023年6月に、続いてPC版が2024年9月にリリースされ、さらに各プラットフォーム向けのロールアウトが段階的に行われたことなど実務的事実を押さえている(PCリリースは2024年9月17日)。
僕はこのシリーズの音楽的モチーフの再利用やエンカウンター設計の比較研究をしており、特に戦闘ループの短周期化とプレイヤー感情の連続性維持について言及するのが好きだ。
コミック方面では、最近の大きな業界動向、例えばマーベルとDCの枠を超えたクロスオーバーが企画されるなど(Deadpool×Batmanの一連の展開が話題になっている)、出版社間でのIPコラボが再び活発化している点をチェックしている。
これらはコレクター需要と市場流動性に直接影響するため、収集と保存に関する経済的最適化問題として興味深い。
今日、隣人が新しいジャンプ作品の話題を振ってきたので僕は即座に最新章のリリーススケジュールを確認し、One Pieceの次章の予定についても把握している(最新チャプターの公開予定など、週刊連載のスケジュール情報は定期的に確認している)。
例えば「午後9時に彼らがカップ麺を食べる確率は、僕の観察では0.83だ。ゆえに僕は9時前に冷蔵庫の位置を変えるべきだ」という具合だ。
結語めいたものを言うならば、日常のルーティンと高度に抽象化された理論は相反するものではなく、むしろ同じ認知的圏の異なる射影である。
だから僕は今日もルームメイトの忍耐を試す微細な仕様変更(例えばリモコンの向きを30度回す)を行い、その反応をデータ化している。
さて、20時30分だ。これでノートを閉じ、決まった手順で歯を磨き、眠りの準備に入る。明日の朝のアジェンダは既に分解されているから、心配は要らない、と自分に言い聞かせてから寝るのが僕のやり方だ。
俺はさ、物事を学ぶときに、長い時間をかけることがほぼねーのよな。
Kerasでテキトーな文書分類タスクを学習する場合、3 epochsで十分なのよ、100とか回す必要ねーの。
なぜなら、3回で精度の収束傾向が読めねーなら、そのモデル設計自体がクソなんだよ。
100 epochs回すってのは、もはや「思考停止の自己放尿」だよ。出せば出すほど気持ちいいけど、何も残らねぇ。
ギターもチェスも料理も同じ。俺の学習に「解像度」なんて概念は存在しない。
音楽理論を覚えるより、コード進行の位相構造を感じ取った方が早い。
チェスのオープニングを全部暗記するより、局面のエントロピー変化を直感で捉えた方が強くなる。
レシピを完コピするより、熱伝導と香気分子の拡散を支配した方がうまくなる。
俺はそういう学び方をしてる。つまり、学習とは情報量を増やすことじゃなく、情報を圧縮して抽象構造を見抜くことなんだよ。
だから「楽しめればいい」というのは、俺にとって惰性でも妥協でもない。むしろ、それは人間的な限界処理速度に合わせた最適化戦略なんだ。
楽しめない学習ってのは、CPUがサーマルスロットリングしてんのにベンチマーク回してる自己放尿してるようなもんだ。意味がない。
100 epochs回したのなんて、「仕事でしょうがなくプログラミングをやってるから」程度の自己放尿でさ。要は、精度を上げるんじゃなくて、上司の不安を下げるための儀式だ。
だから俺は3 epochsで世界を読む。100 epochsを信じる奴らは、コードも理論も自分の中で抽象化できないから、量で殴るしかねぇんだ。
公文も微分を公式だけ覚えさせてはい小学生なのに微分できますみたいなことさせてるけど馬鹿みたいや
-----BEGINPGP SIGNEDMESSAGE-----Hash: SHA512https://anond.hatelabo.jp/20251013002803# -----BEGINPGP SIGNATURE-----iHUEARYKAB0WIQTEe8eLwpVRSViDKR5wMdsubs4+SAUCaOy2jQAKCRBwMdsubs4+SGWSAP4+MfnMGshJ8ryNg67dEEjLh/ZcXH0klzk36+bZFqfjzwEAok22abQIqrURPVV5x1gRuwXgi3ZDWvWhdydYrmLx4AU==TGXd-----ENDPGP SIGNATURE-----
目覚ましは06:17、豆は正確に12.3グラム、挽き目は中細、湯の温度は93.2℃で抽出時間は2分47秒。
ルームメイトがたまにまちがえて計量スプーンを左から右へ並べ替えると、その不整合が僕の内部状態の位相をわずかに変えるのを感じるが、それは許容誤差の範囲内に収められている。
隣人の社交的雑音は僕にとって観測器の雑音項に過ぎないので、窓を閉めるという明快なオペレーターでそれを射影する。
友人たちとの夜はいつも同じ手順で、ログイン前にキーボードを清掃し、ボタンの応答時間をミリ秒単位で記録する。
これが僕の日常のトレースの上に物理的思考を埋葬するための儀式だ。
さて、本題に入ろう。今日はdSの話などではなく、もっと抽象的で圧縮された言語で超弦理論の輪郭を描くつもりだ。
まず考えるのは「理論としての弦」が従来の場の量子論のS行列的表現を超えて持つべき、∞-圏的・導来幾何学的な定式化だ。
開弦・閉弦の相互作用は局所的にはA∞代数やL∞代数として表現され、BV形式主義はその上での微分グラデーション付き履歴関数空間におけるマスター方程式として現れる。
これを厳密にするには、オペラド(特にmoduli operad of stablecurves)とそのチェーン複体を用いて散乱振幅をオペラディックな合成として再解釈し、ZwiebachやWittenが示唆した開閉弦場理論の滑らかなA∞/L∞構造を導来スタック上の点列として扱う必要がある。
導来スタック(derived Artin stack)上の「積分」は仮想基本クラスの一般化であり、Pantev–Toën–Vaquié–Vezzosiによるシフト付きシンプレクティック構造は、弦のモジュライ空間に自然に現れる古典的BV構造そのものだ。
さらに、Kontsevichの形式主義を導来設定に持ち込み、シフト付ポアソン構造の形式的量子化を検討すれば、非摂動的効果の一部を有限次元的なdeformationtheoryの枠組みで捕まえられる可能性がある。
ここで重要なのは「関手的量子化」すなわちLurie的∞-圏の言語で拡張TQFTを∞-関手として定義し、コボルディズム公理を満たすような拡張場理論の対象として弦理論を組み込むことだ。
特に、因果的構造や境界条件を記述するfactorization algebra(Costello–Gwilliamの枠組み)を用いると、局所的観測子代数の因子化ホモロジーが2次元世界面CFTの頂点代数(VOA)につながる様が見えてくる。
ここでVOAのモジュラリティと、2次元場の楕円族を標的にするエリプティックコホモロジー(そしてTMF:topological modular forms)が出てくるのは偶然ではない。
物理的分配関数がモジュラー形式としての変換性を示すとき、我々は位相的整流化(string orientation of TMF)や差分的K理論での異常消去と同様の深層的整合性条件に直面する。
Dブレインは導来カテゴリ(整合層の導来圏)として、あるいは交差的フカヤ圏(Fukaya category)として表現でき、ホモロジカルミラー対称性(Kontsevich)はこれら二つの圏の導来同値としてマップされる。
実際の物理的遷移やアセンションは、圏の安定性条件(Bridgelandのstability conditions)とウォールクロッシング現象(Kontsevich–Soibelmanのウォールクロッシング公式)として数学的に再現され、BPS状態はドナルドソン–トーマス不変量や一般化されたDT指数として計算される。
ここで出てくる「不変量」は単なる数値ではなく、圏のホールディング(持続的な)構造を反映する量化された指標であり、カテゴリ的量子化の語彙では「K-theory的なカテゴリ不変量」へと持ち上げられる。
さらに、超弦の非摂動的断面を完全に記述しようとするなら、モジュライ超曲面(super Riemann surfaces)の導来モジュラス空間、そのコンパクト化(Deligne–Mumford型)のsuperversion、そしてこれら上でのファクタライゼーションの厳密化が不可欠だ。
閉弦場理論のstringfieldtheoryはL∞構造を持ち、BV量子化はその上でジグザグするcohomologicalobstructionを制御する。
より高次の視座では、場の理論の「拡張度」はn-圏での対象の階層として自然に対応し、拡張TQFTはCobordism Hypothesis(Lurie)に従って完全に分類されうるが、弦理論の場合はターゲットが無限次元であるため古典的公理系の単純な拡張では捉えきれない。
ここで我々がやるべきは、∞-オペラド、導来スキーム、シフト付きシンプレクティック構造、A∞/L∞ホモロジー代数の集合体を組織化して「弦の導来圏」を定義することだ。
その上で、Freed–Hopkins–Telemanが示したようなループ群表現論とツイストK理論の関係や、局所的なカイラル代数(Beilinson–Drinfeldのchiral algebras)が示すような相互作用を取り込めば、2次元CFT分配関数と高次トポロジー的不変量(TMF的側面)が橋渡しされるだろう。
これらは既知の断片的結果をつなげる「圏的連結写像」であり、現実の専門家が何をどの程度正確に定式化しているかは別として、僕が朝に計量スプーンを右から左へ戻す行為はこうした圏的整合性条件を微視的に満たすパーソナルな実装に過ぎない。
夜、友人たちと議論をしながら僕はこれら抽象的構造を手癖のように引き出し、無為に遺伝子改変を選ぶ愉快主義者たちに対しては、A∞の結合子の非自明性を説明して彼らの選択が位相的にどのような帰結を生むかを示す。
彼らは大抵それを"面白い"と呼ぶが、面白さは安定条件の一つの可視化に過ぎない。
結局、僕の生活習慣は純粋に実用的な意味を超え、導来的整合性を日常に埋め込むためのルーチンである。
明日の予定はいつも通りで、06:17の目覚め、12.3グラムの豆、93.2℃、2分47秒。そしてその間に、有限次元近似を超えた場所での∞-圏的弦理論の輪郭をさらに一行ずつ明確にしていくつもりだ。
微分積分とか存在価値が謎すぎたけど、微分の意味をAIに聞いたら面白かった
でも聞いたらわかりやすかった
落ちるボールって車と違って、
落ちてる間ずっと速度上がってるやん
となると、ロケットの加速のシミュレーションとかそういうのがしやすくなる
もちろんそんなシミュレーションなんて普段しないけど、ちゃんと用途があるし、知れば知るほど普段裏側がよくわからんモノ(コンピューターとか最たるもの)の仕組みが少しずつわかりそう
要約:今回は要約はしません
ドラームコホモロジーとは、解析的な微分形式と代数的な構造の間に横たわる見えざる橋梁である。
その橋梁を渡るとき、我々は常に「形式」と「現実」のあいだに立ち尽くす。
ここで突然、青い猫型ロボットが姿を現す。
ドラえもんという偶像は、22世紀からやってきた未来の形式的対象でありながら、そのポケットからは無限に拡張されるコホモロジー類のように道具が湧き出る。
つまり、彼自身が「微分形式の無限和」であり、なおかつ「準同型写像としての友達」である。
では、automorphic formと大友さんの関係性はどうか。
大友さんという固有名は、数論的対象のように個別でありながら、automorphic formのように全体構造に埋め込まれている。
彼の存在は、グローバルな対称性の表現であり、ローカルにはどこにも属さぬ「偶然の素数」である。
大友さんが一言「なるほどね」とつぶやくとき、それはフーリエ展開の一項にすぎないが、全体を解釈するうえで不可欠な基底となる。
ドラームコホモロジーとドラえもんを結びつけるものは「ポケット」という概念である。
ドラえもんの四次元ポケットは、有限次元的に定義されながら無限の射影極限を孕む。そこには「形式的微分」と「のび太の怠惰」が共存し、まるで非自明なコサイクルとして時間に刻まれている。
一方、automorphic formと大友さんを結びつけるのは「調和」という観念である。彼の生活習慣、昼食の選択、曖昧な相槌が、すべてモジュラー性条件に従って整列する。
ひとつはドラーム的な「形式と実在のあいだを往復する知」、もうひとつはautomorphicな「局所と大域を接続する和声」。
すなわち我々がコホモロジーを通じて未来を語るとき、果たして誰がその翻訳を担うのか。
青いロボットか、大友さんか。それとも、われわれ自身がすでに形式そのものであり、ただ気づいていないだけなのか。
この謎は、もはや数式でも物語でも解けない。
だがひとつ確かなことは、ドラームコホモロジーとドラえもん、automorphic formと大友さんという四者は、互いに無関係であるがゆえに、最も深く結びついているのである。
少し前に国産LLM開発着手について - GPUで戦うな | チキンズブログ!という記事が注目を集めました。賛否両論が集まりましたが、個人的には、その後の対応も含め、このままではよくないなと思っています。
もっとも大きな問題は、手羽先氏が指摘に対して真剣に対応していないことです。例えば、誤差逆伝搬法を用いないニューラルネットワークの学習方法についてはかなりの量の既存研究が存在することを指摘されても、それらの文献の調査を行っておられません。調査を行わないことには、自分が考えた手法に新規性があるのかわかるわけもなく、価値あるアイデアなのかどうか、自分自身を含めて誰にもわからないでしょう。英語が読めないとか、そんな言い訳は通用しません。既存手法の調査はスタートラインに立つために最も重要な仕事です。
指摘1:https://x.com/faster_almighty/status/1961694382555549949
指摘2:https://x.com/NASNETou/status/1961687423362240938
他にもまずいなと思うところがあります。国産LLM開発着手について - GPUで戦うな | チキンズブログ! には文意がよくわからないところ、どう考えてもおかしいところが多すぎます。以下、具体的に指摘を入れておきます。
いくつか指摘を書きましたが、この文章は、細かい指摘を受け取って欲しいというよりは、問題が多い状態であるということを伝えたくて書きました。注目を集めたこの機に、誰かよいメンターを見つけてくれると一番いいなと思います。手羽先氏がはばたけるように祈っています。
数学は、理解力のある奴は公式を見て「これは何らかの演繹から証明されたものだな」ということがわかる
例えば二次方程式の解の公式がなぜそうなるのかという話になれば、それは「まず二次方程式の一般形を書き、それをxについて解くように変形する」で証明されることがわかる
「なぜ公式が必要なのか」という話になれば「入力・処理・出力、という形式だけで簡単に答えが求まるから」ということを、理解力の高い奴はわかる
もっと理解力の高い奴は、二次方程式が現実に応用される問題を見つけることができる。例えばY=R-Cという形式の問題が二次方程式になる場合、最適解が微分で導かれることを見抜く
相対論は学部で教える基礎科目なので自慢できるようなものではありません
宇宙「えっ君、微分幾何も知らないのに相対論とか言ってるの?」
私「うるせー バーカ」
宇宙「やっぱりさー 電磁気も流体も最初から微分形式で教えるべきですよね」
私「うるせー バーカ」
私「Gravitationに・・・」
私「何で今言い直したんですか?」
宇宙「君らさー Weinberg って言えば場の量子論だと思ってるでしょ?僕らにとっては Cosmology なんだよねー」
私「知らねー イラネー Final Fantasy」
数学屋「物理屋さんは接続のことをゲージ場と呼ぶみたいですが・・・(メガネくぃッ)」
私「うるせーバーカ」
私「何で今言い直したんですか?」
とりあえず思いつく限り書いた
コホモリン: (ホモジーの肩を叩く)ホモジーさん、もう朝ですよ。あんた、また徹夜で単体ホモロジーのチェーン複体 Cₙ(X) を眺めとったんですか? なんでそんなに、境界作用素 ∂ₙ が気ぃなるんです? ∂² = 0 はもう、摂理みたいなもんやないですか。
ホモジー: (ゆっくりと顔を上げる)摂理…? コホモリン…お前はわかってない…。この境界作用素 ∂ₙ: Cₙ(X) → Cₙ₋₁(X) が、ただの摂理で終わると思とるんか? これはな、鎖複体のコホモロジー Hⁿ(X) とホモロジーHₙ(X) を繋ぐ、導来関手の源泉なんや…。Ext関手とかTor関手が、この単純な関係から生まれるって、鳥肌もんなんやで…!
コホモリン: (額に手を当てる)いや、そこまでいくと、もう代数やないですか。あんた、完全にホモロジー代数の世界に意識飛んでますやん。位相空間の形の話はどこ行ったんですか。
ホモジー: 形…? 形とはなんぞや、コホモリン…。ホモトピー同値な空間は、ホモロジー群が同型やろ? けどな、エキゾチック球面 S⁷ は、普通の S⁷ とは微分同相じゃないのに、ホモロジーは同型なんやで…? あれって、結局、微分構造が持つ情報って、ホモロジーだけじゃ捉えきられへんってことやろ? 俺はもう、その不確定性原理に囚われとんねん!
コホモリン: (震え声で)不確定性原理…もう、あんた、物理学まで手ぇ出しとるんか。エキゾチック球面は、ミルナーの偉業ですよ。あれは、多様体の圏と位相空間の圏の間の、深い亀裂を示しとるわけや。あんた、もうそっちの闇に堕ちて行ってるんちゃいますのん?
ホモジー: 闇…そうや、闇や…。特異点解消の理論とか、フルーリーのインデックス定理とか、闇深すぎやろ…。特に、交叉ホモロジー! あれは、特異点を持つ空間のホモロジーを定義するときに使うねんけど、あの構成可能層の概念が、俺の脳みそを層化して、導来圏の中で消滅コホモロジーとして彷徨わせとんねん…!
コホモリン: (絶句)き、交叉ホモロジー?!あんた、そこまで行ったらもう、完全に偏執狂ですよ!ド・ラームコホモロジー Hᵈᴿⁿ(M) が特異コホモロジー Hⁿ(M; ℝ) と同型になるド・ラームの定理でさえ、あんたの目には生ぬるいんか!?
ホモジー: 生ぬるい…生ぬるすぎる…。p-進ホモロジーとかエタールコホモロジーの存在を知ってしまったら、もう普通のホモロジーには戻られへんねん…。特にエタールコホモロジーは、代数多様体の上で定義されるやろ?ヴェイユ予想の解決にも貢献したって聞いて、もう夜も眠れへんねん。ガロアコホモロジーとの関連とか、考えたら意識が飛ぶわ…!
コホモリン: (顔面蒼白)エ、エタールコホモロジー…!? それ、数論幾何の最先端やないですか! もう、あんたは位相幾何学の領域を完全に飛び出して、数学のあらゆる深淵を覗き込んどる…!ホモジーさん、お願いやから、もうやめてください…! 俺のホモトピー群 πₙ(X) が、完全に自明群になってしまいそうですわ…!
ホモジー: (恍惚とした表情で、宇宙の果てを見つめるように)フフフ…コホモリン…俺のボーゲン–シュミット予想がな、今、頭の中で圏論的極限を迎えようとしとるんや…。宇宙全体のホモロジー群 が、俺には見えるんや…!
コホモリン: (膝から崩れ落ち、全身が震える)うわあああああああ!ホモジーさん、あんたはもう、人間やない!数学の抽象的対象そのものや! 俺はもう無理や…あんたの隣におったら、俺の有理ホモトピー型が壊れてまう…!
「十で神童、十五で才子、二十歳過ぎればただの人」というように、一見すごく賢いようにみえても、他の子と比べて成長が早かっただけの場合が多い。
実際のところ、それを見分けるすべはない。
しかし、現実日本の社会での運用は、ある一定の年齢で高校受験、大学受験と偏差値で切り分けていく。
早熟な子ほど、いい高校、いい大学への切符を手に入れ、発達が遅い子が中卒や高卒で就職させられているように思う。
知的障碍児なんかは発達が遅く、年齢の7掛けや5掛けくらいのスピードで学校の勉強が進んでいく。
小6で掛け算をどうにかというスピードで、中学を卒業すると、社会性も知識も不十分なまま、放り出される。
対価をもらうのに十分な能力が開発されないままに社会に出されても、作業所で仕事を与えるほうも負担だ。
障害児の例は極端だが、せっかく指導要領があるのに、理解しないまま進級させるというのはどうしたものだろうか。
そこらを放置したまま、指導要領を議論して何の意味があるのだろうか?
と議論をしたところで、理系に進んだ高校生の多くは社会科を捨てるのだ。
と議論をしたところで、文系に進んだ高校生の多くは数学を捨てるのだ。
それは、リソース配分のためで、なんのためかといえば受験のためで、同じ年齢で成績を競い合うからだ。
二次関数を理解できるまで高校2年生になれない、微分積分ができるまで高校三年生になれない、そうするべきだろう?
だって、義務教育って、最低限知っておいたほうがいい知識なんだろう?
最低限の知識をマスターせずに社会に出すなんて、仮免通らないまま公道を走らせるようなもんだろう?
大規模言語モデル(LLM)の根幹にあるのは数学的な原理です。
ここでは、その仕組みを3つの要点に絞って、数式を交えながらシンプルに解説します。
LLMの最も基本的なタスクは、「ある単語の並び(文脈)が与えられたときに、次に来る単語は何か?」を確率的に予測することです。これを数式で表すと、以下のようになります。
LLMは、インターネット上のブログ記事や書籍といった膨大なテキストデータを読み込みます。
そして、文章中のあらゆる箇所で「次の単語」を予測するクイズを延々と解き続けます。
モデルは、P(晴れ |今日の天気は) の確率が100% (または1.0)に近づくように、内部のパラメータ(後述する重み)を少しだけ調整します。
このプロセスを何十億、何兆回と繰り返すことで、モデルは単語の様々なつながり方や文法、さらには世界の知識に関するパターンを学習していきます。
学習済みのモデルに「AIの未来は」と入力すると、モデルは語彙に含まれる全単語に対して、次に来る確率を計算します。
...
そして、最も確率の高い「明るい」を選んだり、確率分布に従ってランダムに単語を選んだりすることで、文章を生成していくのです。
では、どのようにしてLLMは単なる単語の並びだけでなく、複雑な文脈を理解するのでしょうか?
その技術が Transformerであり、その学習を支えるのがバックプロパゲーション です。
Transformerの最大の特徴は自己注意機構 (Self-Attention) です。
これは、文章中の単語同士の関連性の強さを計算し、どの単語に「注意」を向けるべきかを判断する仕組みです。
例えば、「その猫は疲れていた。なぜなら一日中ネズミを追いかけていたからだ。」という文において、「その猫」が「疲れていた」理由を理解するためには、「追いかけていた」という単語との関連性が重要です。
自己注意機構は、各単語について以下の3つのベクトルを生成します。
そして、以下の計算(概念式)によって、文脈を反映した新しい単語表現を作り出します。
Attention(Q, K, V) = softmax( (Q Kᵀ) / √(dₖ) ) V
1. Q Kᵀ: Queryと各Keyの関連度(内積)を計算します。似ている単語ほど値が大きくなります。
2. / √(dₖ): 値が大きくなりすぎないように調整します(スケーリング)。
3. softmax:計算した関連度スコアを、合計が1になる確率分布に変換します。これにより、関連性の強い単語ほど高い重みが与えられます。
4. V: この重みを使って、各単語の情報(Value)を重み付けして足し合わせます。
この結果、単語は元の意味だけでなく、「文脈の中でどのような役割を果たしているか」という情報を含んだベクトルに変換されます。
Transformerはこの処理を何層も積み重ねることで、非常に複雑で長期的な依存関係を捉えることができるのです。
バックプロパゲーション(誤差逆伝播法)は、モデルの予測と正解との「誤差」を計算し、その誤差を小さくするために、モデル内の膨大な数のパラメータ(重み)をどう調整すればよいかを教えてくれるアルゴリズムです。
1. 順伝播 (Forward Pass):入力(コンテキスト)をTransformerに通し、次の単語の確率分布を予測します。
2. 損失計算 (Loss Calculation):予測した確率分布と、正解の単語とのズレ(誤差)を損失関数(例:クロスエントロピー誤差)で計算します。損失が大きいほど、予測が間違っていることを意味します。`Loss = -Σ yᵢlog(pᵢ)` (yᵢ は正解なら1, それ以外は0。pᵢ はモデルの予測確率)
3. 逆伝播 (Backward Pass): この損失を、出力層から入力層に向かって逆方向に伝播させます。微分の連鎖律を使い、「各パラメータが最終的な損失にどれだけ貢献したか(=勾配)」を計算します。
4.パラメータ更新: この勾配に基づき、損失が小さくなる方向へ各パラメータを少しだけ更新します。
この「予測 → 誤差計算 → 勾配計算 →更新」というサイクルが、LLMの学習の基本です。
バックプロパゲーションで計算された勾配を使って、具体的にどのようにパラメータを更新するかを決めるのがオプティマイザ(最適化手法)の役割です。
最も基本的な考え方は、損失という名の「谷」の底(最小値)に向かって、勾配(傾き)が最も急な方向に一歩ずつ下っていく勾配降下法 (GradientDescent)です。
θ_new = θ_old - η ∇L
現在、最も広く使われているオプティマイザの一つが Adam です。これは、勾配降下法をより賢くしたもので、主に2つの工夫がされています。
1.慣性 (Momentum):過去の勾配の移動平均を保持します。これにより、坂道を転がるボールのように、同じ方向に進み続ける場合は加速し、学習が停滞しにくくなります。
2.適応的な学習率 (Adaptive LearningRate):パラメータごとに学習率を自動で調整します。頻繁に更新されるパラメータは慎重に(学習率を小さく)、あまり更新されないパラメータは大胆に(学習率を大きく)更新することで、学習を効率化します。
Adamのような優れたオプティマイザがあるからこそ、何十億ものパラメータを持つ巨大なLLMを、現実的な時間で安定して学習させることができるのです。
Transformer というアーキテクチャが、自己注意機構によって文脈を理解し、次の単語の確率 P(next token | context) を予測する。
その予測と正解の誤差をバックプロパゲーション で計算し、その誤差を最小化するように Adam などのオプティマイザがモデルのパラメータを効率的に更新する。
すっかりどこまで書いたか忘れた。
2021年の終わりに↓これを読んだあたりまでだったな。
「Pythonで学ぶ実験計画法入門 ベイズ最適化によるデータ解析」
すげーいい本だったんだけども、実際に活用する場がないんで(なにせ頭を使わない仕事なんで)読みっぱなし。
今考えるとよくないね。
実は、この本に出てくるD最適計画、それからサポートベクター回帰っていうやつが1年後くらいにちょっと役立ったのだけど、それは後の話。
「ゼロつく」のときは理解できなかったクラスの概念も、このころにはすっかり便利さを実感することに。
ここで、もう一度「ゼロつく」に戻ればよかったんだけど、ここまでくると、自分の仕事周りのデータに対しては深層学習って不要だなって思って、戻ることはなかった。
前のエントリで書いた放送大学で「Rで学ぶ確率統計」の単位を無事に取れて調子に乗ってたので、せっかく入学したのだからといくつか授業取ってみた。
統計とかプログラミングの勉強については、「データの分析と知識発見」「コンピュータービジョン」「データベース」の三つかな。
それとは別に人文系の科目も調子に乗って履修してる。もともと数学とか嫌いで歴史とかのほうが好きだし。
「データの分析と知識発見」ってのは、Rを使うやつで、今考えれば多変量解析の入門って感じ。
「コンピュータービジョン」はクッソ難しかったな。
OpenCVってやつの使い方をサクっとパパっと知れるんかと思ったら、ガッツリとエピポーラ幾何とかいうやつから入って行列三昧だったし。
線形代数を知らないエセ理系舐めんなよ!わかるわけねーだろ(今までの本でも行列を触ってきてたけど、雰囲気でなんとかいける、あるいは読み飛ばしてもそういうもんと思って次に進めた。うまく言えないんだけど、100次元とかあるともう諦めてそういうもんだって割り切れるじゃん?3次元くらいだと、ちゃんと現実に戻ってこれないと困るから、ホントに理解できてないのが自覚させられる)
「データベース」もお気楽にSQLマスターできるもんかと思ったら、歴史から入ってガッツリと三層スキーマなにやら、SQL触るのなんてちょびっとだった。
で、このへんでいろんな方向に手を延ばすのもだけど、1つ資格でも取ってみようかなと思って、統計検定に手を出してみた。
大学がエセ理系のポンコツとはいえ、高校出てるんだし大村平の本を読みまくったんだし、受かるだろと思ったが、2級初受験は58点で不合格。
すっかり統計学に恐怖が出てしまったので、2級リベンジの前に「Python3エンジニア認定データ分析試験」とかいうやつに挑戦。
こっちは、ホントに易しくて、統計学がわかってなくてもライブラリの使い方がわかればまあなんとかなるもんだった。
ほぼ満点で弾みをつけて、2級リベンジ。
今度は過去問を買って真面目に机に向かう。
自分、机に向かうってことが嫌いで、ひたすら通読を繰り返すやりかたしか勉強法を知らなかったんだけど、この時ばかりは体に叩き込む作戦。
電卓で計算しては、分布表を読んで、判定して、みたいなルーチンを体で覚えて、見事リベンジ。
しかし、統計検定2級も受からないくせによく、背伸びしていろんな本読んでたもんだよ。
たぶん、わかったつもりになってなんもわかってなかったな。
統計検定2級を取った勢いで、準1級とやらもとっちまうかと手をだしたら、テキストが超難しいの。
4章くらい読んで、挫折して、数か月寝かせる、みたいな感じを何度か繰り返すことになった(結局、準1級に受かったのは2025年になってからだ)。
準1級は、統計学以前に、微分積分とか線形代数の知識がないとテキスト読めない仕様。
日本統計学会公式認定統計検定準1級対応統計学実践ワークブック
「式変形については行間を読んで解釈してくれページの都合で次行くからよろしく!」
っていう感じ。
見事に挫折。
統計も、微分積分も、線形代数も徐々にってことで、準1級はいったん休止。
それから、バイオインフォマティクス技術者認定試験とかいう試験をみつけて、興味が出たので公式テキストをとりよせて挑戦することに。
バイオインフォマティクス入門 第2版
元々、生物系だったので、なんとなくわかる単語も多かったし(理系のくせに微分積分も線形代数もヘナチョコって生物系だって丸わかりかもだが)。
これが、ほどよく多変量解析から機械学習からいろいろ網羅されていて、いい勉強に。
重いもの運ぶくらいしか取り柄がない腹が出て禿てきたオッサンが、若い院卒様に頼られるって自己肯定感高まる良い体験。
そこで使ったのが、D最適計画とサポートベクター回帰。
まだまだ鼻くそのようなもんなのに、意外と頼られるっていうことになったんだけど、まあ多いのはデータの可視化だったんで、データの可視化を学んでみることに。
本当は、ggplotとmatplotlibとかplotlyを100本ノックしようと思ったんだけど、やっぱり急がば回れ、有名な教科書の和訳らしいので↓をチョイス
「データビジュアライゼーション ―データ駆動型デザインガイド」
すげーお堅いw
やっぱ、こころのどっかで、「チャっとやったらパパっとできる!」みたいなのを求めてるんだよな。
そんで、二冊目はもうちょっと実務的に↓を選んだ。
『データ分析者のためのPythonデータビジュアライゼーション入門コードと連動してわかる可視化手法 』
この本はかなり実務的、というかどうすればお手軽に可視化できるかって話だけなんだけど、おかげさまでキレイに見せるテクニックだけは上がり、職場でも評価は上々。
「なんかよくわかんないけどアイツに持っていけば綺麗なFig作ってくれる。ポンコツだからいつも暇だし!」
という状態に。
放送大学で「データ構造とアルゴリズム」とかいう科目を取ったおかげで、意図せずC言語と関わる。
二度とC言語を使うことなんかないだろうけど、グラフ理論がコンピュータと相性がいいのが、データ構造の勉強をしてよくわかった。
そんで、やっとこさ挫折していた統計検定準1級の勉強を再開する。
で、また数章読んで飽きた。
だって、難しいんだもん。
っていうか、線形代数と微分積分の学力不足で投げたことをすっかり忘れて、もう一度開いて投げ出すんだから世話ないわなw
仕方ないから、微分積分は高校三年生の使う黄チャートを買って目を通した。
線形代数は
を一周。
部分積分と置換積分を手足のように使えるようになってやっとこさ、統計学実践ワークブックを読めるように。
読めるようになってから読むと、因数分解くらいの感じでマクローリン展開してきてることがわかって草。
統計の勉強のリハビリにと、放送大学でも「統計学」という授業をとってみたけれど、統計検定2級より易しかった感じ。
プログラミングの勉強はほとんどしなかったけど、Githubのアカウントつくって、renderとかherokuでウェブアプリを公開したりした。
Gitを覚えてみて初めて分かる、「名前を付けて保存」以外のファイル管理を知らなかった自分のヤバさ。
続く。
高木関数の話はまるで微分不可能な点がある関数を無限に足し合わせたら必ず微分不可能な点が存在する関数にしかならないかのような誤解をする人がいそう。
でもk∈Rでn=kでfk(n)=n^2、n≠kでfk(n)=0の関数列を全て足し合わせたΣ[k∈R]fk(n)は明らかにただの二次関数になる。
各fk(n)のグラフは明らかに孤立点を持った微分不可能な関数だけどね。
-----BEGINPGP SIGNEDMESSAGE-----Hash: SHA512https://anond.hatelabo.jp/20250613204528 -----BEGINPGP SIGNATURE-----iHUEARYKAB0WIQTEe8eLwpVRSViDKR5wMdsubs4+SAUCaEwPUwAKCRBwMdsubs4+SF6/AQDs9oy83qxiufD4AC6jJ/mzRLfhiKYM7s+SQ0BXCvJTugD/X86PwQzDbZotO5aWnudQtzmFHPLtBQ+T3x3SLMQ73g4==qoex-----ENDPGP SIGNATURE-----