Movatterモバイル変換

petite_blue id:petite_blue

transformerに関するpetite_blueのブックマーク (28)

Just image Transformer: ピクセル空間で実画像を予測するフローマッチングモデル
概要 JiT (Just image Transf ormer) は VAE を使わず、ピクセル空間上で flow-matching を行うモデルは速度 (velocity) v を予測するよりも実画像 x を予測した方が性能が良い (x-pred) ただしロスは、実画像 x とノイズ画像 z から作れる速度 v でロスを計算すると良い (v-loss) はじめに拡散による画像生成モデルは Stable Diffusion を筆頭として、U-Net ベースのモデルが主流でした。派生の SDXL は、その取り回しの良さから 2025 年 12 月現在でもいまだに使われるベースモデルだと思います。最近ではそれらに加えて、DiT から始まった Transf ormer をメインに用いた拡散モデルである、 Flux.1 や Qwen-Image、 Z-Image がその生成画像の品質の高さから
petite_blue2025/12/15
transformer
ai
リンク
脳に着想を得たAIモデル「BDH」がTransformerの限界を超えるかもしれない | XenoSpectrum
AIスタートアップPathwayが、人間の脳神経回路に着想を得た新アーキテクチャ「Baby Dragon Hatchling（BDH）」を発表した。現在の主流であるTransf ormerモデルの限界を打破する可能性を秘め、より解釈可能で自律的なAIへの道を拓くものとして、業界に静かな衝撃が走っている。 Transf ormer時代の黄昏と新たな地平線近年のAIの進化は、OpenAIのGPTシリーズに代表されるTransf ormerアーキテクチャによって牽引されてきた。膨大なデータと計算資源を投入する「スケーリング則」により、その性能は飛躍的に向上した。しかし、その輝かしい成功の裏で、いくつかの根深い課題が顕在化しつつある。一つは「ブラックボックス問題」だ。モデルがなぜ特定の結論に至ったのか、その思考プロセスを人間が理解することは極めて困難である。もう一つは「時間経過に伴う汎化能力の欠如」
petite_blue2025/10/19
ai
transformer
リンク
トランスフォーマーは RNN である - ｼﾞｮｲｼﾞｮｲｼﾞｮｲ
拙著『深層ニューラルネットワークの高速化』が重版して第 2 刷となりました。皆さまありがとうございます！深層ニューラルネットワークの高速化 (ML Systems) 作者:佐藤竜馬技術評論社Amazon もはや恒例、重版に感謝して書き下ろし専門記事をお届けします。本稿では、SNS などでもたびたび話題になるトランスフォーマーは RNN であるという話をします。本稿では単に形式的に包含性を指摘するだけでなく、トランスフォーマーと RNN はどの程度似ているのかや、そこから導かれる応用上の意味についても詳しくご紹介します。本稿は『深層ニューラルネットワークの高速化』の第 6.3 節と第 7.2 節に基づいています。過去回拡散モデルと最適輸送（最適輸送第 5 刷） GNN の最新動向（グラフニューラルネットワーク第 3 刷）深層学習で部分空間を扱うときは射影行列を考えるとよい（グラ
petite_blue2024/10/01
transformer
deep learning
リンク
ニューラルネットワークの中身を分割してAIの動作を分析・制御する試みが成功、ニューロン単位ではなく「特徴」単位にまとめるのがポイント
GoogleやAmazonが投資するAIスタートアップのAnthropicの研究チームが、ニューラルネットワークがどのように言語や画像を扱っているのかを解き明かす研究において、個々のニューロンを「特徴」と呼ばれる単位にまとめることでニューラルネットワークの中身を解釈しやすくなるという研究結果を発表しました。 Anthropic \ Decomposing Language Models Into Understandable Components https://www.anthropic.com/index/decomposing-language-models-into-understandable-components 大規模言語モデルは多数のニューロンが接続されたニューラルネットワークで、ルールに基づいてプログラミングされるのではなく、多数のデータを元にトレーニングを行うことでタス
petite_blue2023/10/11
transformer
ai
リンク
Transformers as Support Vector Machines
Sinceits inception in "Attention Is All You Need", transf ormer architecture has led to revolutionary advancements inNLP. The attention layer within the transf ormer admits a sequence of input tokens $X$ and makes them interact through pairwisesimilarities computed as softmax$(XQK^\top X^\top)$, where $(K,Q)$ are the trainable key-query parameters. In this work, we establish a formal equivalence
petite_blue2023/09/04
論文
transformer
svm
リンク
225行のコードでGPTの仕組みを理解する
概要 LLMに関心があり、ChatGPTやtransf ormerの仕組みを理解したいと思っていたところ、雰囲気を掴むのにこちらの動画がとても参考になりました。動画の内容としては、以下のコーパスを学習して、直前の数文字から次の1文字（単語ではないことに注意）予測機を作成するというものです。この動画で完成するコードは以下で、225行しかなくとても読みやすいです。また短いですがtransf ormerのエッセンスが詰まっていて勉強になりそうです。このコードを読み解くことでGPTやtransf ormerがどのように動いているのか、ざっくり理解してみようと思います。ちなみに完成するとこんな感じの文字列が生成されます。ぱっと見文章っぽいですね。 first Scitizen: He's enough; but he cannot give his friends. MARCIUS: Do yo
petite_blue2023/08/29
transformer
llm
リンク
Attention Is Off By One | Hacker News
1. SummaryThe author is suggesting that we add 1 to thedenominator of the softmax that is used within attention mechanisms (not the final output softmax). The softmax inside an attention unit allowsit to see key/query matches as probabilities; those probabilities support a continuous-valued version of a key-value lookup (instead of 1/0 output of a lookup, we get weights where a high weight = the
petite_blue2023/07/25
transformer
リンク
Attention Is Off By One
By Evan Miller July 24,2023 About which one cannot speak, one must pass over in silence. –Wittgenstein Do you see the off-by-oneerror in this formula? \[ \textrm{Attention}(Q, K, V) = \textrm{softmax}\left(\frac{QK^T}{\sqrt{d}}\right)V \] The attention formula is the central equation of modernAI, but there’s a bug init that has been driving me nuts the last week. I tried writing a serious-look
petite_blue2023/07/25
transformer
llm
あとで読む
リンク
GitHub - clovaai/donut: Official Implementation of OCR-free Document Understanding Transformer (Donut) and Synthetic Document Generator (SynthDoG), ECCV 2022
You signed in with another tab or window. Reload to refresh yoursession. You signed out in another tab or window. Reload to refresh yoursession. Youswitched accounts on another tab or window. Reload to refresh yoursession. Dismiss alert
petite_blue2023/05/29
ocr
transformer
リンク
BERTのAttentionは何を見ているのか？
3つの要点 ✔️BERTのAttention機構の分析手法の提案 ✔️Attentin機構は全体的には区切り文字や[CLS]、[SEP]を見ている ✔️特定のAttention機構では「動詞とその目的語」、「名詞と修飾語」、「前置詞とその目的語」などの簡単な文法関係から、照応関係などの複雑な文法関係も獲得している前書き現在の自然言語処理ではTransf ormer以降、Attention機構を用いたモデルが流行となっています。その中でも最近はBERTなどの巨大な事前学習済みのモデルが大きな成功を収めています。それらモデルが何を学習しているのかを分析する取り組みは行われてきましたが、モデルの出力自体や隠れ層でのベクトル表現に焦点を当てた分析手法が中心でした。この論文では、Attention機構が何を見ているのかに焦点を当てたモデルの分析手法が提案されており、BERTのAttention
petite_blue2023/05/20
bert
transformer
論文
リンク
https://arxiv.org/pdf/2302.10866
petite_blue2023/03/12
transformer
gpt
リンク
GPTを超える大規模言語アーキテクチャ「Hyena」とは何か？
GPTを超える大規模言語アーキテクチャ「Hyena」とは何か？：清水亮の「世界を変えるAI」（1/2 ページ） 3月7日、刺激的なブログがHazy Researchから投稿された。新しい大規模言語モデルHyena（ハイエナ）の登場だ。 Hazy Researchはスタンフォード大学とモントリオール大学による共同の研究チームだ。特に深層学習の世界ではトップ研究者として知られ、コンピュータ業界におけるノーベル賞に相当するチューリング賞受賞者であるヨシュア・ベンジオ博士も論文に名を連ねていることから話題になっている。現在、広く使われているのはGPT-3やChatGPTといったいわゆる「Transf ormer（トランスフォーマー）」というモデルだ。「Transf ormer」は、並列化がしやすく大規模な学習に向いているという特徴を持っている。GPTも、実は「Generative Pre-train
petite_blue2023/03/12
transformer
gpt
ai
リンク
フリーで使える日本語の主な大規模言語モデル（LLM）まとめ
ありがとうございます！実は私本人がそのモデルの構築に関わっているのですが、詳細はまだ言えない状況です...。来年3月の言語処理学会年次大会(NLP 2023)での続報をお待ちください！このモデルに関する論文が公開される予定です（一応それを待ってからこの記事にも掲載します）。（私が書いたものではありませんが、現段階で公開できる情報をまとめた記事があります: https://note.com/utokyo_itc/n/nb18b2a753f23 ）
petite_blue2023/03/05
gpt
nlp
transformer
リンク
30分で完全理解するTransformerの世界
はじめに初めまして。ZENKIGENデータサイエンスチームのはまなすです。正式な所属はDeNAデータ本部AI 技術開発部なのですが[1]、業務委託という形で今年度から深層学習系の開発等に携わっています。深層学習界隈では、2017年に衝撃的なタイトル（Attention Is All You Need）の論文が発表されてから早5年半、元出自の機械翻訳タスクを大きく越えて、Transf ormer関連の技術が様々な領域で用いられる汎用アーキテクチャとして目覚ましく発展し続けています。今回はそんなTransf ormerが現時点までにどのように活用されてきたか、また、どのように工夫されてきたかをざっくりと俯瞰し、流れをおさらいする目的の記事になります。本記事の大枠は、2021年時点でのサーベイ論文である A Survey of Transf ormers に倣いつつ、適宜、2023年2月上旬現在ま
petite_blue2023/02/15
transformer
bert
あとで読む
論文
リンク
The Transformer Family Version 2.0
Date: January 27,2023 | Estimated Reading Time: 45 min | Author: Lilian Weng Many new Transf ormer architecture improvements have been proposed since my last post on “The Transf ormer Family” about three years ago. Here I did a big refactoring and enrichment of that 2020 post — restructure the hierarchy of sections and improve many sections with more recent papers. Version 2.0 is a superset of the
petite_blue2023/01/30
transformer
deep learning
bert
gpt
リンク
はじめての自然言語処理 T5 によるテキスト生成の検証 | オブジェクトの広場
前回はテキストマイニングの手法と OSS を用いた実践について紹介しました。今回は、Google の T5(Text-to-Text Transfer Transf ormer) によるテキスト生成について、学習や推論のコード例と実験結果を交えてご紹介します。 1. はじめに本記事ではGoogle の T5(Text-to-Text Transfer Transf ormer) 1によるテキスト生成について、学習や推論のコード例と実験結果を交えてご紹介します。実験としては livedoor ニュースコーパス2での文章分類、やさしい日本語コーパス3及びやさしい日本語拡張コーパス4を用いたやさしい日本語変換を行いました。今回もGoogle Colaboratory で動かすことを想定したコードスニペットを入れていきますので、実際に動かしたり対象を変えてみたりして試して頂けると良いかと思います
petite_blue2023/01/28
transformer
リンク
Google BrainのSwitch Transformer言語モデル、16兆個のパラメータに到達
Google Brainの研究者たちは、より大きく、より良いものを追求し続ける中で、新たに提案したSwitch Transf ormer言語モデルを、計算コストを抑えながら1.6兆個のパラメータにまでスケールアップした。研究チームは、Mixture of Experts (MoE) ルーティングアルゴリズムを単純化し、データ、モデル、専門家の並列性を効率的に組み合わせ、この「法外な数のパラメータ」を可能にした。最近の多くのシンプルなディープラーニングアーキテクチャは、より複雑なアルゴリズムよりも優れた性能を発揮していますが、このような性能向上には膨大な計算予算、膨大なデータセット、膨大なパラメータ数が必要となる。研究チームは、ディープラーニングモデルはすべての入力に対して同じパラメータを再利用する傾向があるのに対し、Mixture of Experts (MoE)モデルは異なるパラメータを
petite_blue2023/01/28
deep learning
transformer
リンク
はじめての自然言語処理 Switch Transformer の検証 | オブジェクトの広場
Transf ormer のパラメータ数を増やしながらも必要な計算量の増加を抑えることができるSwitch Transfomer のご紹介です。Google さんのように1兆6千億パラメータは無理ですが、規模が小さいモデルでも効果が見込めるようなので、実際に動かして確認してみたいと思います。 1. はじめに今回は今年1月に発表されたSwitch Transf ormer 1 の話です。 Transf ormer というモデルはそのサイズに応じて性能が伸びることが良く知られています2。近年どんどん巨大化しており、Switch Transf ormer ではついにパラメータ数が1兆6千億個に達しました3。この連載ではこの手の巨大なモデルは「スゴイのはわかるんですけれど、デモをつつくぐらいで手元で動かせないなぁ～。」とスルーしていたのですが、Switch Transf ormer はパラメータ
petite_blue2023/01/28
deep learning
transformer
リンク
オフライン強化学習② Decision Transformerの系譜 - どこから見てもメンダコ
Decision transoformer (2021)は、自然言語モデルGPTにおける次トークン予測の枠組みでオフライン強化学習タスクを解けることを示し新たなパラダイムをもたらしました。最近ではDeepMindの超汎用エージェントGATOなどもDecision Transf ormerベースのアーキテクチャを採用しており、その重要性が増しています。 Decision Transf ormer とはオフライン強化学習の新たなパラダイム言語を生成するように行動を生成する自然言語風アプローチのメリット条件付き生成：Reward conditioned Sequence modelingの系譜 Multi-Game Decision Transoformer（NeurIPS2022） Uni[Mask]（NeurIPS2022）： MaskedLMの導入 GATO（2022）：超汎用エー
petite_blue2023/01/10
強化学習
transformer
gpt
リンク
仕事用にTransformer/BERTの情報をまとめる – かものはしの分析ブログ
都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。Twitterアカウント Mr_Sakaue( SKUE )GitHub 読書メーターほしいものリスト最近、『Transf ormerによる自然言語処理』という書籍を買って、これまであまり追いかけていなかったTransf ormerについて仕事でカジュアルに使えるレベルまで色々と準備してみようと思い、その過程で見つけた色々な情報をまとめてみました。以前、『BERTによる自然言語処理入門: Transf ormersを使った実践プログラミング』も買って、写経しながら試していたのですが、仕事であまり使う機会がなかったのであまり身につかなかったです。その反省も込めて、仕事でその
petite_blue2022/06/27
bert
transformer
リンク
12次のページ