はじめに 筆者のモチベーション本記事のキーワードは、 普遍近似定理(Universal Approximation Theorem) 二重降下(Double Descent) 過剰パラメータ化(Over-parameterized) 多層化の利点(Benefits of Depth) といった感じで、これらのトピックを解説した素晴らしい和文資料は既にたくさん存在します。 そんな中で「とりあえずこの記事を読めば深層学習がうまく学習できる雰囲気を掴める」記事を書くことを目標にしています。深層学習を取り巻くテーマは多岐にわたるため、論文を読み始めるとNotebookLM を駆使したとしてもまだまだ大変な作業であり、各事柄を個別に解説した記事もいろいろ読まねばなりません。もちろん、DeepResearch 等を使えば本記事よりも多くの情報が得られるかもしれませんが、キュレーションしつつ詳しさに

TOPフォーカス初代プレステで「神」になろうとした男。機械学習で生命創造を試みた『がんばれ森川君2号』『アストロノーカ』開発者の苦悩と野望【フォーカス】 初代プレステで「神」になろうとした男。機械学習で生命創造を試みた『がんばれ森川君2号』『アストロノーカ』開発者の苦悩と野望【フォーカス】 2025年4月22日 モリカトロン株式会社代表取締役 森川幸人 1959年生まれ。CGクリエイターとして『アインシュタイン』『ウゴウゴ・ルーガ』等のテレビ番組に携わった後、1995年に有限会社ムームーを設立してゲーム制作の道へ進む。AIとゲームシステムが融合したタイトルを多数手がけており、代表作に『がんばれ森川君2号』『アストロノーカ』等がある。2004年に『くまうた』で文化庁メディア芸術祭審査員推薦賞を、2011年に著書『ヌカカの結婚』でダ・ヴィンチ電子書籍大賞を受賞。2017年にモリカトロン株式会社

こんにちは、東京大学の三輪敬太です。 私は2024年度に未踏IT人材発掘・育成事業として「ニューラル言語モデルによる個人最適な日本語入力システムの開発」というテーマで採択され、早稲田大学の高橋直希さんとともにmacOS上の日本語入力システムを作りました。今回はこの中でも中心的な開発テーマの1つであった「ニューラルかな漢字変換システム」の開発と、その成果について紹介します。 かな漢字変換とは? 日本語は通常、漢字やひらがな、カタカナ、数字、アルファベットなど、何千種類もの文字を使い分けて表記されます。これをわずか高々100個強のキーしかないキーボードで入力するために重要になるのが、日本語入力システムによる支援です。 多くの皆さんが使っている日本語入力システムでは、ローマ字を介してひらがなを入力し、それを変換して漢字かな交じり文とします。このひらがなによる入力から漢字かな交じり文を作る部分で行

コミューン株式会社で機械学習エンジニアをしている深澤です。 この記事はCommuneアドベントカレンダー(シリーズ2)の 21 日目の記事です。 直前まで全く違う記事を書いていたのですが、ModernBERT というアツいモデルが発表されて話題になっており、Huggingface の公式からブログも出ているので、早速読んでみた感想をアドベントカレンダーの記事にすることにしました。感想だったり、付属事項を調べてみたので記事として昇華することを目指しています。 翻訳したもの、というよりは要点をかいつまんだものになっています。詳細は以下の記事を御覧ください。 記事 論文 コード ModernBERT のここがすごい Token length が 8192 に拡張(!?) もともとは 512 です。10倍以上になってる... GLUE スコアもかなり向上 それでいてbase (139M param

TL;DR Thisblog post introduces ModernBERT, a family of state-of-the-art encoder-only models representing improvements over older generation encoders across the board, with a 8192 sequence length, better downstream performance and much faster processing. ModernBERT is available as a slot-in replacement for any BERT-like models, with both a base (149M params) and large (395M params) model size. Cli
はじめに Stable Diffusionなどの画像生成AIを触っているうちに、大元となった拡散モデルの理論を知りたいと思い勉強し始めました。 ここでは、個人的な理解を殴り書きして忘備録としたいと思います。 (数学科ではないので、説明がふわっとしてしまうのは申し訳ございません。雰囲気がわかることを目的としています。) 私と同じように、理論を学びたい方の手助けになれば幸いです。 拡散モデルに対する当初の理解 私の拡散モデル対する理解は、上記の図で事足ります。 「自然画像に対して、少しずつノイズを付与していき、各段階ごとにちょっとだけノイズを取り除いた画像をニューラルネットワークにより生成することを、複数回繰り返すことで、なぜか、最終的にノイズの乗っていない画像を生成できる」 別にこの理解は間違っているわけではないですが、なんでその手法にしたのか、なぜその手法でノイズが綺麗に取り除かれるのかと

この記事はCyberAgent Developers Advent Calendar 2024 8日目の記事です。また、 自由入力解像度対応 Detection Transformer を錬成するトリック の続編です。CyberAgent AI Lab の Agent Development チームで対話エージェント・ロボットの研究開発に従事しているリサーチエンジニアの兵頭です。CyberAgent の Developer Experts としても、Labの研究活動だけではなく事業横断的に全社を技術で支援しています。 すべてのエッセンスを盛り込むといつも数十万文字超の長大な記事を書いてしまいバックエンドのブログシステムを破壊してしまうため、今回はデモコードなどをすべて排除して一年分の成果をできるかぎりコンパクトにまとめ、行間の質量を高めます。 1. 取り組んだタスク 2Dエージェント

PFNの海野裕也が2024/10/15に東大大学院「自然言語処理応用」にゲスト講師として登壇した際の講義資料です。

拙著『グラフニューラルネットワーク』が重版して第 3 刷となりました。皆さまありがとうございます! 拡散モデルと最適輸送でもやりましたが、漫画家さんやイラストレーターさんが重版したときに重版感謝の描き下ろしイラストを投稿しているのを見ていいなと思ったので、僕も専門書が重版したときに重版感謝の書き下ろし専門記事を投稿します。本稿では、ICLR 2024(5/7 - 5/11 @ウィーン)で発表されたグラフニューラルネットワーク (GNN) 関連の研究動向を紹介します。ICLR 2024 で発表された GNN 関連の論文は全部で 170本です。凄まじい量ですね。ICLR 2024 では全て合わせて 2296本の論文が採択されたので、7.4 パーセントが GNN 関連ということになります。この分量からも、GNN が活気ある研究対象であることが伺えます。 以下では、代表的なトピックについて
グラフニューラルネットワーク - Forkwell Library #50 https://forkwell.connpass.com/event/315577/ での講演スライドです。 サポートサイト:https://github.com/joisino/gnnbook グラフニューラルネット…

Stable Diffusionの画像生成を画像によって条件づける方法をまとめていきます。といっても実装とかを全部見たわけではないので、多少間違っている部分もあるかもしれませんが、まあイメージはあってるっしょ。 手法の分類 画像の情報をUNetのどこに与えるかによって手法を分類します。とりあえず5つに分けてみました Cross Attentionに与える:Prompt Free Diffusion, PFG, IP-Adapter Self Attentionに与える:Reference only, FABRIC Timeembeddingに与える:UnCLIP, Revision その他の場所に与える:ControlNet, GLIGEN, T2I-Adapter LoRAの重みを学習する:HyperDreambooth あれ・・?もしかしてこの時点でたいていの人は脱落ですか。この辺の

3つの要点 ✔️ Local-Sensitive-Hashingにより必要な要素同士のAttentionを計算することができるようになった ✔️ Reversible layerによってレイヤー数に比例して増加するactivationを保存するメモリの削減 ✔️ transformerの計算量を$O(L^2)$から$O(L \log L)$まで削減した Reformer: The Efficient Transformer written by Nikita Kitaev, Łukasz Kaiser, Anselm Levskaya (Submitted on 13 Jan 2020 (v1), last revised 18 Feb 2020 (this version, v2)) Comments:ICLR 2020 Subjects:Machine Learning (cs.L

Consistent Video Translation with the learned canonical image and deformation. Slide for comparison. For all the demos, the inputs are provided on the left. We present the content deformation field (CoDeF) as a new type of video representation, which consists of a canonical content field aggregating the static contents in the entire video and atemporal deformation field recording the transformati
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く