RWKV website: https://rwkv.com (with 90+ RWKV-related papers) RWKVtwitter: https://twitter.com/BlinkDL_AI (lastest news) RWKVdiscord: https://discord.gg/bDSBUMeFpc (9k+ members) RWKV-7 "Goose" is the strongestlinear-time & constant-space (no kv-cache) & attention-free & 100% RNN architecture on this planet at this moment, suitable for LLM and multimodal applications and more (see rwkv.com). IMP
Transformerは分散できる代償として計算量が爆発的に多いという不利がある。 一度みんなが忘れていたリカレントニューラルネットワーク(RNN)もボケーっとしている場合ではなかった。 なんと、GPT3並の性能を持つ、しかも完全にオープンな大規模言語モデルが公開されていた。 そのなもRWKV(RuwaKuvと発音しろと書いてある。ルワクフ?) RWKVはRNNなのでGPUメモリをそれほど大量に必要としない。 3GBのVRAMでも動くという。 時間がない方はビデオをご覧ください 僕の失敗は、何も考えずにgit lfs installでディレクトリごとコピーしようとしたこと。 このディレクトリには過去のモデルデータが全部あるので、ひとつ30GBのモデルデータを何十個もダウンロードしようとしていて終わらなかったのだ。 モデルデータは一とつあれば十分なのでひとつだけにする。 次に、chatのリポ

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 少し時間が経ってしまいましたが、Sentencepiceというニューラル言語処理向けのトークナイザ・脱トークナイザを公開しました。MeCabやKyTeaといった単語分割ソフトウエアとは趣旨や目的が異なるソフトウェアですので、少し丁寧にSentencepieceの背景、応用、実験結果等をお話したいと思います。 サブワード ニューラル言語処理の中心となる要素技術にLSTM (RNN)があります。テキスト(トークン列)を低次元のベクトルに符号化したり、ベクトルからテキストを復号化したり、その応用範囲は多岐にわたります。ニューラル機械翻訳 (N

[VOLUME WARNING] This is what happens when you throwraw audio (which happens to be a cute voice) into a neuralnetwork and then tellit to spit out whatit's learned. This is a recurrent neuralnetwork (LSTM type) with 3 layers of 680 neurons each, trying to find patterns in audio and reproduce them as well asit can.It's not a particularly bignetwork considering the complexity and size of the

教師なしRNNによる連続した不完全情報(主にテキスト)の補完 背景Google(や、過去の私のブログの投稿)などで低解像度の映像を高解像度化する方法は、GANを使うことでわりとうまくいきました。 テキストにも同じような問題が適応できるのかって思うことがあります。RNNはすでに記述されている文字をヒントとして次の文字を予想することができます。 その特性を利用して、情報が失われたテキストから復元を試みる例を示します。 (また、戦時中の戦艦に乗っていた搭乗員の劣化した手記から情報を復元したいという思いがあります。手記の海水に沈み腐敗が進んでいたり、筆記が乱れていて解析が困難であったりという点を補完できれば良いと思います。彼らの思い、可能な限り現代に蘇らせたいと思います。) 先行研究 今回は見当たらない(ほんとに存在しないんだったら、論文出したい) 手法 RNNで欠落した連続する情報を周辺の単語

Results on IWSLT (TED talk transcript) German to Englishmachine translation task. Interpretability Deep learning models are often said to be “black boxes”: You feed data in, and results come out without a human-readable explanation of why the neuralnetwork decided to produce that particular output. In principle,it is always possible to attempt to understand the internal workings of a neuralnet

RNN「これってもしかして」CNN「わたしたちのモデルが・・・」 「「入れ替わってる~~~!?」」 というわけでQRNN、QUASI-RECURRENT NEURALNETWORKSとは、RNNの機構をCNNで「疑似的(QUASI)に」実装するというモデルです。これにより、既存のRNN(というかLSTM)が抱えていたいくつかの問題の解決を試みています。 元論文は以下となります。 QUASI-RECURRENT NEURALNETWORKS 作者によるブログ 作者の方のブログにChainerのサンプルコードがあったので、それを元にTensorFlowで実装してみました。早く動かしたい!という方はこちらを見てみてください。 icoxfog417/tensorflow_qrnn (Starを頂ければ励みになります m(_ _)m)本記事では、この研究のモチベーションとそのアプローチについ

先月のとある勉強会で使ったスライドを今更ながら貼ります。 そこそこの「seq2seqやAttentionほどは脚光を浴びていない、RNNの基礎部分の改良や知見」を載せることを趣旨にしています。 口頭のみでの説明も多かったり、読み込みが浅かったり、量重視だったりして、スライドの各説明は特に詳しくないです。まだまだ十分に検証されていないことや納得しきれない(論文著者の)言明も多々ありますので、読む際は、ふわふわと話半分に小耳に挟むくらいがちょうどいっか〜と思って読んでください。 新たなRNNと自然言語処理 from hytae 需要と質はさておき英語版もあります。 Recent Progress in RNN andNLP from hytae
May 21, 2015 There’s something magical about Recurrent NeuralNetworks (RNNs). I still remember when I trained my first recurrentnetwork for Image Captioning. Within a few dozen minutes of training my first baby model (with rather arbitrarily-chosen hyperparameters) started to generate very nice looking descriptions of images that were on the edge of making sense. Sometimes the ratio of howsimpl

1リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く