Movatterモバイル変換


[0]ホーム

URL:


Uploaded byRCCSRENKEI
PDF, PPTX692 views

DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化

計算科学技術特論B2020

Download as PDF, PPTX
Akira Naruse, 2020/7/16DEEP LEARNING、トレーニング・インファレンスの GPU による高速化
2アジェンダディープラーニング概要• ディープラーニングの歴史・基礎• さまざまなネットワークと応用• 何故、計算負荷が重いのか?トレーニングの加速• 低精度演算 (16-bit 浮動小数点)• マルチノードインファレンスの最適化• 量子化 (Quantization)• モデル圧縮 (Pruning)
3ディープラーニング概要
44様々な分野で活用されるディープラーニングインターネットとクラウド画像分類音声認識言語翻訳言語処理感情分析推薦メディアとエンターテイメント字幕ビデオ検索リアルタイム翻訳機械の自動化歩行者検出白線のトラッキング信号機の認識セキュリティと防衛顔検出ビデオ監視衛星画像医学と生物学癌細胞の検出糖尿病のランク付け創薬
CHASING 1060 CHEMICALCOMPOUNDSIdentifying molecules with desirable chemical properties is centralto manyindustries. In the chemicalspace of 1060 conceivable compounds, only108 have been synthesized.Screening even a small fraction of the remaining compounds with legacymethods would take 100 node-seconds per compound.Researchers at Dow are using GPU-powered deep learning to delivercompletely novelmolecular structures with specific properties.The AI produced 3M promising chemicalleads in 1 day on an NVIDIA DGX.
AI IS SPEEDING THE PATH TO FUSION ENERGYFusion, the future of energy on Earth, is a highly sensitive process where small environmentaldisruptions can stall reactions and damagemulti-billion machines. Current models predict disruptions with 85% accuracy — ITER will need something more precise.Researchers at Princeton University developed the GPU-powered Fusion Recurrent NeuralNetwork (FRNN) to predict disruptions. FRNNhas achieved 90% accuracy and is on the path to achieving 95% accuracy necessary for ITER’s tests.Visualization courtesy of Jamison Daniel, Oak Ridge Leadership Computing Facility
7ディープラーニングは機械学習の一分野人工知能(AI)ディープラーニング(深層学習)マシンラーニング(機械学習)
8ディープラーニングの歴史機械学習の一手法として82012:画像認識コンペでの圧勝2011:音声認識コンペでの圧勝2006:事前学習とautoencoderによる多層ネットワークの学習1992~:非線形SVM等の流行1989:畳み込みニューラルネットワークの提案1986:誤差逆伝播法の提案1980:ネオコグニトロンの提案1969:(単純)パーセプトロンの限界が明らかになる1958:パーセプトロンの発表1940~50年代:人工知能の提唱第一次ブーム: ~1970 第二次ブーム: ~1990 第三次ブーム: ~20??
9DEEP LEARNINGを可能にしたものアルゴリズム大量のデータ計算性能Deep Learning found GPU and GPU enabled Deep Learning
10人工ニューロン神経回路網をモデル化スタンフォード大学cs231講義ノートより神経回路網w1 w2 w3x1 x2 x3yy=F(w1x1+w2x2+w3x3)F(x)=max(0,x)人工ニューロン(パーセプトロン)
11人工ニューラルネットワーク人工ニューロンを基本単位とするネットワーク構造11w1 w2 w3x1 x2 x3yy=w1x1+w2x2+w3x3人工ニューロン(パーセプトロン)人工ニューラルネットワーク人工ニューロンをたくさんの層として並べる各層にそれぞれ重みパラメータを持つ
12人工ニューラルネットワーク活性化関数12w1w2w3x1x2x3y=w1x1+w2x2+w3x3人工ニューロン(パーセプトロン)y Fz=F(y)F: activation function活性化関数(activation function)z 次の層tanhReLUsigmoid
13人工ニューラルネットワーク基本構造のまとめ13各ノードは入力された値を合計して出力各ユニット(ノードとも)の出力は、各層の重みと積算され次の層へ活性化関数による変換
14トレーニングの流れForward Propagation損失関数誤差入力入力をうけとり、第一層から順番に、指定された計算を行い、結果を出力結果と正解から、指定された損失関数に基づき、誤差を得る正解(ねこ)
15トレーニングの流れBackward Propagation損失関数誤差連鎖律に基づき、得られた誤差を起点に、Forward Propagationとは逆順に誤差を伝搬し、各層のパラメータの勾配を計算する勾配勾配勾配勾配勾配勾配勾配
16トレーニングの流れUpdate Parameters得られた勾配に基づいて、各層のパラメータを更新する勾配勾配勾配勾配勾配勾配勾配
17重み更新勾配法による更新17重み w誤差 E最適解 現在値誤差を最小化する重みが最適解ニューラルネットワークの内部状態(=重み)に応じて誤差は変動
18重み更新勾配法による更新18重み w誤差 E最適解傾きが正(=右上がり)なら値を減少させる傾きが負(=右下がり)なら値を増加させるwn wm
19重み更新勾配法による更新19重み w誤差 E最適解傾きが正(=右上がり)なら値を減少させる傾きが負(=右下がり)なら値を増加させるwn wm傾き(=勾配ベクトル)により重みを逐次更新
20重み更新勾配法による更新20重み w誤差 Ewnwn+1wn+2最適解(ゴール)少しずつ更新
21ディープラーニングのアプローチDogCatHoney badger誤差逆伝搬犬猫アライグマトレーニング:十分な精度が得られるまで、これを延々と繰り返す
22ディープラーニングのアプローチDogCatHoney badger誤差逆伝搬犬トラアライグマインファレンス:犬トレーニング:学習済みモデル
さまざまなネットワークと応用
24基本的なネットワーク多層ニューラルネットワーク24前層の全ノードが次層のノードに接続されている状態↓全結合している
25畳み込みニューラルネットワーク (CNN)画像を扱うことに長けたネットワーク25畳み込み層全結合層
26畳み込み層 (CONVOLUTION)26000000001110000122111012221101222110011111000000040000000-410-8入力ピクセルコンボリューションカーネル出力ピクセル入力とカーネルとで要素同士の積を計算し、全て足したものが出力カーネルの重みも学習によって調整される
27CNN の応用27画像分類物体検出領域分割/セマンティックセグメンテーションなどなど……
28リカレントニューラルネットワーク (RNN)系列データを自然に扱うためのネットワーク28隠れ層の出力を隠れ層の入力として戻す出力層隠れ層入力層
29リカレントニューラルネットワーク (RNN)系列データを自然に扱うためのネットワーク29出力層隠れ層入力層展開出力層隠れ層入力層出力層隠れ層入力層t = 1 t = 2前の出力を次の入力にすることで、依存関係を考慮長い系列ほど深いネットワークになる
30LSTM: LONG SHORT-TERM MEMORYRNNの欠点を解消するネットワーク30出力層隠れ層入力層RNNの隠れ層をLSTMブロックで置き換えいくつかのゲートにより長期の依存関係を学習可能に
31RNN/LSTMの応用31系列データ予測次が上がるのか下がるのかを予測 異常予測定常的なふるまいと異なる動作を予測などなど……
32何故、計算負荷が重いのか?
33全結合層 (FULLY CONNECTED LAYER)行列ベクトル積 (y = Wx)Ny計算量:2 * 出力ノード数 (Ny)* 入力ノード数 (Nx)入力 x 出力 y重み WNx重み W入力 x出力 yNyNxNx[性能律速点]メモリバンド幅
34全結合層 (FULLY CONNECTED LAYER)ミニバッチ学習で、行列積に (Y = W・X)重み W計算量:2 * 出力ノード数 (Ny)* 入力ノード数 (Nx)* ミニバッチサイズ (Nb)入力 X 出力 Y重み WNb * Nx Nb * Ny入力 X出力 YNyNxNxNb[性能律速点]演算性能
35全結合層Forwardは、行列積全結合層X YMatmulW誤差入力Y = W・X
36全結合層Backwardも、行列積全結合層X YMatmulW誤差入力gYgX = Wt・gYgW = gY・XtgWgXBackward の計算量は、Forward より、2 倍程度多いY = W・X
37畳み込みニューラルネットワークConvolutional Neural Network37全結合層
38LSTM: LONG SHORT-TERM MEMORYY = W・X 相当の計算が 4 つ38出力層LSTM入力層
39LSTM: LONG SHORT-TERM MEMORYスタック LSTM39LSTMX (t=0)LSTMLSTMY (t=0)
40LSTM: LONG SHORT-TERM MEMORY系列データ40LSTMX (t=0)LSTMLSTMY (t=0)LSTMX (t=1)LSTMLSTMY (t=1)LSTMX (t=N)LSTMLSTMY (t=N)
41畳み込みニューラルネットワークConvolutional Neural Network41畳み込み層
420000000011100001221110122211012221100111110000000入力コンボリューションカーネル出力コンボリューションカーネルの係数と、入力ピクセルを掛け、足し合わせた値を出力とする。畳込み層 (CONVOLUTIONAL LAYER)40000000-4-8重み
43CONVOLUTION ~ 行列積Y = W・X’0481215913261014371115入力 X出力 Y036147258 0481219132610143711155重み W0 1 2 3 4 5 6 7 8 0 5 10 1554-21----986542109765----10101113141510111415-重み W 出力 Y入力 X’img2col 変形
44CONVOLUTION ~ 行列積0481215913261014371115入力 X(Niw * Nih)出力 Y(Now * Noh)036147258 0481219132610143711155重み W(Kw * Kh)入力 X’Kw * KhKw*KhNow * Noh重み W 出力 Yこれ、行列積じゃなくて、行列ベクトル積では?計算量:2 * Kw * Kh * Now * Noh
45CONVOLUTION ~ 行列積0481215913261014371115 036147258 0481219132610143711155重み W 出力 Y入力 X’Kw * Kh * NicNocKw*Kh*NicNow * Noh * Nb入力 X(Niw * Nih)出力 Y(Now * Noh)重み W(Kw * Kh)計算量:2 * Kw * Kh * Now * Noh* Noc * Nic * Nb
46畳み込み層Forwardは、行列積(相当)畳み込み層X YConvW誤差入力Y = W・X’
47畳み込み層Backwardも、行列積(相当)畳み込み層X YConvW誤差入力gYgX’ = Wt・gYgW = gY・X’tgWgXY = W・X’
48行列積、行列積、行列積、、学習で時間のかかるのは、全結合層と畳込み層どちらも、積和演算の塊とみなすことができる(行列積)• C = A・B様々なサイズの行列積を高速に実行できるマシンが、学習には必要いろいろなサイズcuBLAS
49トレーニングの高速化
巨大化するネットワーク
51多様なDL モデルCONVOLUTIONALNETWORKSRECURRENTNETWORKSGENERATIVEADVERSARIALNETWORKSREINFORCEMENT LEARNING NEW SPECIESDQN Simulation DDPG Mixture of Experts NeuralCollaborative FilteringBlock SparseLSTMCapsule NetsReLuEncoder/DecoderDropout PoolingConcatBatchNormGRULSTMCTCBeam SearchWaveNet Attention3D-GANSpeech EnhancementGANCoupled GANConditional GANMedGAN
52計算パワーは、もっと必要なのか?アプリケーションに依存• 自然言語処理系は拡大• 画像処理系は収束?
53自動運転に必要なものSemanticSegmentationObjectDetectionLocalizationPlanning
54計算パワーは、もっと必要なのか?IT分野からミッションクリティカル分野に拡大• ミッションクリティカル分野では、より高い精度が必要• 例:自動運転、99%の正解率で十分?Question: もっと精度を上げるにはどうすればよいのか
55モデル精度向上には、教師データ増が有効• 深層学習の成功の要因(画像処理系)• 大規模な教師データ• NNモデルの多層化・大容量化• 計算パワーの増大• Q: 教師データをもっと増やしたら何が起きるのか• ImageNet: 120万枚の画像• JFT-300M: 3億枚の画像 (ラベルはnoisy)Chen Sun et al., “Revisiting Unreasonable Effectiveness of Data inDeep Learning Era”, 2017
56モデル精度向上には、教師データ増が有効Chen Sun et al., “Revisiting Unreasonable Effectiveness of Data inDeep Learning Era”, 2017教師データサイズと認識精度の関係Object detection (ResNet-101)左:COCO, 右:PASCALVOC 2007モデルサイズと認識精度の関係Object detection (COCO)ResNet-50/101/152教師データサイズの指数に比例して精度向上モデルサイズ増で精度向上ただし大量の教師データ必要BetterBetter
57どうやってトレーニング時間を短縮するか• 単体(1ノード, 1GPU)のスピードを上げる• 演算精度を下げて、性能を上げる (半精度、専用ユニット)• 多数のノード/GPUを使う• 大量のノードを使って、一つのモデルのトレーニング時間を短縮する
58低精度演算 (16-BIT 浮動小数点)
59DLトレーニングに必要な演算精度は?• 乗算は低精度でOK (FP32より低精度で問題ない)• 浮動小数点の方が良い• パラメータ更新には高精度 (FP32) を使用した方が良いMatthieu Courbariaux et al., “Training Deep Neural Networks with LowPrecision Multiplication”, 2014レンジexponent精度mantissaFP32e8 m23se8 m7e5 m10FP16 sBF16 ssignFP16 vs. BF16 論争• FP16: 精度が良い• BF16: オーバーフロー発生しない (使いやすい)行列積は 16-bit 浮動小数点で十分
60BF16で行列演算を高速に実行DLトレーニング向けチップGoogle TPUv3123 TFLOPS x4(*) Google社より引用Habana Gaudi?? TOPS(*) habana社より引用
61TENSOR CORE低精度行列演算ユニットTFLOPS V100 A100FP32 (標準) 15.7 19.5TF32 (TensorCore) --- 156FP16/BF16 (TensorCore) 125 (FP16) 31216-bit16-bit× + 32-bit32-bit16-bit 32-bit
62A100 の行列積性能 (実測)A100 FP32 (FMA) と比較• TF32: 約 7x 性能UP• FP16/BF16: 約 14x 性能UPcuBLAS 11.0FP32 (FMA)Better
63A100 のトレーニング性能 (言語モデル)V100 FP32 に対するスピードアップSpeedupA100 TF32 A100 FP16
64マルチノードでトレーニング
65マルチノード・トレーニング (分散学習)• 多数の演算ノード、GPUを使って学習を加速• モデル精度を下げずに、学習時間を短縮するテクニックの研究開発、ホットトピック• Facebook, Google, Microsoft,PFN, Tencent, SONY, …(*) Priya Goyal, et al., Facebook,“Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour”Better
66GPU2データ並列とモデル並列GPU1GPU1GPU2データ並列 モデル並列• データセットを分割する• 各GPUは、分割後の別サブデータセットを担当• GPU間のデータ交換量少ない• モデルを分割する• 各GPUは、分割後の別サブモデルを担当• GPU間のデータ交換量多い
67データ並列: 同期更新と非同期更新同期更新 非同期更新GPU1GPU1GPU2GPU2GPU3GPU3Forward Backward UpdateForward Backward UpdateForward Backward UpdateGradientsExchangeForward BackwardForward BackwardForward Backwardパラーメータサーバ
68非同期更新 → 同期更新• 非同期更新の問題: Staleness• 過去モデルで計算した勾配で、最新モデルを更新Jianmin Chen at el., “Revisiting Distributed Synchronous SGD”, 2017• ワーカー数を冗長に設定: N + b• N ワーカーから勾配が届いたら、残りの bワーカーを待たずに、モデル更新• 外乱の少ないHomogeneousな環境であれば、b = 0でも問題ない?BetterBetter
69データ並列+同期更新の課題• スケーラビリティ• 精度: モデル精度が低下する• ノード数増 ≒ バッチサイズ増• Facebook: 8Kバッチ(256GPU)まで維持• PFN: 32Kバッチ(1024GPU)まで維持• 性能: 勾配交換の時間が増加する• 1024GPU: 2割以上が通信時間ImageNet, ResNet50, 32バッチ/GPU(*) Priya Goyal, et al., Facebook,“Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour”Better
70データ並列+同期更新の課題• スケーラビリティ• 精度: モデル精度が低下する• ノード数増 ≒ バッチサイズ増• Facebook: 8Kバッチ(256GPU)まで維持• PFN: 32Kバッチ(1024GPU)まで維持• 性能: 勾配交換の時間が増加する• 1024GPU: 2割以上が通信時間(*) www.preferred-networks.jp/docs/imagenet_in_15min.pdfImageNet, ResNet50, 32バッチ/GPUBetter
71モデル精度を維持しつつ、バッチサイズを増やす• ラーニングレートの低下と、バッチサイズの増加は、SGD的に等価• Noise scale:• ε:ラーニングレート• B:バッチサイズ• 数十epoch経過したら、ラーニングレートを下げる代わりに、バッチサイズを増やせば良いSamuel L. Smith, et al., “Don’t’ Decay theLearning Rate, Increase the Batch Size”, 2017Better
72勾配交換の通信量を減らす• 99%以上の勾配は、交換しなくても問題ない?“Deep Gradient Compression: Reducing the Communication Bandwidthfor Distributed Training”, 2017
73NVIDIA NCCL• マルチGPU、マルチノード対応、深層学習用通信ライブラリ• ノード内• PCIe, NVLINK• ノード間• TPC/IP, InfiniBandMulti-GPU and Multi-node Collective Communication Primitives• All-gather• All-reduce• Broadcast• Reduce• Reduce-scatter
74NVIDIA NCCLMulti-GPU and Multi-node Collective Communication PrimitivesBetterBetter
75分散学習(データ並列)の最前線?Processor DL framework Time (minutes)Facebook Tesla P100 x256 Caffe2 60Google TPUv2 x256 TensorFlow 30PFN Tesla P100 x1024 Chainer 15Tencent Tesla P40 x2048 TensorFlow 6.6SONY Tesla V100 x2176 NNL 3.7Google TPUv3 x1024 TensorFlow 2.3NVIDIA Tesla V100 x1536 MXNet 1.33Google TPUv3 x2048 TensorFlow 1.28Fujitsu Tesla V100 x2048 MXNet 1.17ImageNet + ResNet50
762240 x A100#7 in top500NVIDIA Selene
77インファレンスの最適化
78ディープラーニングのアプローチDogCatHoney badger誤差逆伝搬犬トラアライグマインファレンス:犬トレーニング:学習済みモデル
79インファレンスの特徴• モデルは学習済み• Forwardのみ。BackwardとUpdateは不要• トレーニングと比べると、計算負荷は低い• 様々な場所で実行される可能性: クラウド, 移動体, スマホ, IoT, …• 低消費電力: 演算負荷を下げたい• 小容量メモリ: モデルサイズを小さくしたい• 低レスポンス時間: バッチサイズは大きくできない
80インファレンス向けモデル最適化モデルサイズの削減 (計算負荷の削減)• Quantization: モデルの表現 bit 数を減らす (例: FP32/FP16 → INT8)• Pruning: モデル内の重要度の低いパラメータを、刈り取る
81量子化 (QUALTIZATION)
82インファレンスに必要な計算精度• FP32はインファレンスには過剰、FP16/INT8で十分• 初代 Google TPU (インファレンス専用) は INT8 チップ• ウェイトは2 or 3値で十分と主張している研究もある• 2 or 3値だと、一般的にモデル精度が低下• 精度確保のためモデル変更が必要になることが多い(*) “In-Datacenter Performance Analysis of a Tensor Processing UnitTM”
83インファレンスに必要な計算精度• FP32はインファレンスには過剰、FP16/INT8で十分• 初代Google TPU (インファレンス専用) はINT8チップ(*) Matthieu Courbariaux, et al., “BinaryConnect: Training DeepNeural Networks with binary weights during propagations”• ウェイトは2 or 3値で十分と主張している研究もある• 2 or 3値だと、一般的にモデル精度が低下• 精度確保のためモデル変更が必要になることが多いBetter
84インファレンス向けに計算精度を下げる方法• 学習中に、低精度モデルを作る• 複数の精度でウェイトを管理 (例: FP16/32 と INT8)• INT8 で Forward• FP16/32 で Backward & Update• FP32 で学習したモデルから、低精度モデルを作る• FP32 でモデルをトレーニング• 学習完了後に、パラメータを INT8 に量子化(*) Wikipediaより引用量子化と量子化誤差
85学習完了後に低精度モデルを作る学習済みモデルのウェイトを、FP32/FP16からINT8に変換する課題: INT8は、FP32と比べて、非常にDynamic Rangeが狭い• FP32: 1.4 x 10-45 ~ 3.4 x 1038• FP16: 5.96 x 10-8 ~ 65504• INT8: 1 ~ 127単純なデータ型変換(cast)では、対応不可能 → 量子化が必要FP32/FP16 → INT8
86線形量子化飽和無し全てこれにすると、精度ロス大飽和有りActivationで精度改善効果ありINT8 array = FP32/16 array / scale factor
87量子化とモデル精度8-bit INT に量子化しても、同程度の精度を維持B. Jacob, et. al., “Quantization and Training of Neural Networks forEfficient Integer-Arithmetic-Only Inference”Image classification Object detection
88枝刈り (PRUNING)
89PRUNING• 直感:• モデルには大量のパラメータが存在• 出力への影響度はパラメータ毎に違うはず• Pruning:• 学習済モデルから、影響度の低いパラメータを、切り取る• モデルサイズを小さくできる、かつ、演算量を削減できる• 一般的にはPruningすると精度が低下→ 再トレーニング(Fine-tuning)が必要• 1990年代からあるアイデア、多数の研究が存在モデルサイズ・演算量の削減(*) Song Han, “Deep Compression and EIE”, GTC 2016
90PRUNING• 反復 Pruning• 一度に大量のパラメータを切り取ると、モデル精度が大きく低下、再トレーニングしても精度を回復できない• 小刻みに Pruning と Fine-tuning を繰り返す• 影響度のランキング方法• ウェイトやアクティベーションの、絶対値、L1/L2ノルム、標準偏差、等などモデルサイズ・演算量の削減
91PRUNING事例• VGG-16での評価結果Pavlo, et al., “Pruning Convolutional Neural Networks for ResourceEfficient Inference”, 2017BetterBetter BetterBetter
92PRUNING事例• Quantization(とHuffman coding)との組み合わせ• モデル圧縮率: AlexNetで35倍、VGG-16で49倍 (精度低下ほぼ無し)Song Han, et al., “Deep Compression: Compressing Deep Neural Networks withPruning, Trained Quantization and Huffman Coding”, 2016
93PRUNING事例効果• PruningとQuantizationの組み合わせで、精度ロス無しで、モデルサイズの大幅な圧縮を達成ただし、計算は「疎」になる• 密行列 → 疎行列• 大幅に圧縮しないと、スピードUPしないSong Han, et al., “Deep Compression: Compressing Deep Neural Networks withPruning, Trained Quantization and Huffman Coding”, 2016BetterBetter
94入力データ型 積算データ型 TOPS性能UPvs. FP32FP16 FP16 312 16xINT8 INT32 624 32xINT4 INT32 1248 64xBINARY INT32 4992 256xGPUのインファレンス向け機能A100 TensorCore: インファレンス用データ型の行列積も高速化
95入力データ型 積算データ型 TOPS性能UPvs. FP32疎行列TOPS疎行列TOPSvs. FP32FP16 FP16 312 16x 624 32xINT8 INT32 624 32x 1248 64xINT4 INT32 1248 64x 2496 128xBINARY INT32 4992 256xGPUのインファレンス向け機能A100 TensorCore: 「構造的」疎行列の高速化
96A100 SPARSE TENSOR CORE構造的に枝刈り(連続4要素の内2要素をゼロに)圧縮非ゼロindex非ゼロ要素ゼロ× dot-productトレーニング後の「重み」行列入力activationsmux重みを再トレーニング出力activationsselect「疎行列化」で計算スループット 2x「重み」行列のメモリ使用量半減「疎行列化」後もインファレンス精度は同等画像・物体認識、セグメンテーション、自然言語モデル、翻訳SparseTensor CoremuxASP: Automatic Sparsity for Retraining in Frameworks
97まとめ
98まとめディープラーニング概要• ディープラーニングの歴史・基礎• さまざまなネットワークと応用• 何故、計算負荷が高いのか?トレーニングの加速• 低精度演算 (16-bit 浮動小数点)• マルチノードインファレンスの最適化• 量子化 (INT8)• モデル圧縮 (Pruning)
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化

Recommended

PDF
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
PDF
【メタサーベイ】基盤モデル / Foundation Models
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PDF
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
PPTX
【DL輪読会】Scaling Laws for Neural Language Models
PDF
失敗から学ぶ機械学習応用
PPTX
【DL輪読会】"A Generalist Agent"
PPTX
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
PDF
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
PDF
ChatGPTは思ったほど賢くない
PDF
ChatGPT 人間のフィードバックから強化学習した対話AI
PDF
全力解説!Transformer
PDF
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
PPTX
物体検出の歴史(R-CNNからSSD・YOLOまで)
PPTX
画像認識と深層学習
PDF
最適輸送の解き方
PDF
画像生成・生成モデル メタサーベイ
PPTX
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
PPTX
【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools
PDF
GAN(と強化学習との関係)
PPTX
StyleGAN解説 CVPR2019読み会@DeNA
PDF
深層生成モデルと世界モデル
PDF
顕著性マップの推定手法
PPTX
多目的強凸最適化のパレート集合のトポロジー
PPTX
How Much Position Information Do Convolutional Neural Networks Encode?
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
PPTX
Tensor コアを使った PyTorch の高速化
PPTX
Depth Estimation論文紹介
PPTX
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
PDF
モデルアーキテクチャ観点からのDeep Neural Network高速化

More Related Content

PDF
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
PDF
【メタサーベイ】基盤モデル / Foundation Models
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PDF
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
PPTX
【DL輪読会】Scaling Laws for Neural Language Models
PDF
失敗から学ぶ機械学習応用
PPTX
【DL輪読会】"A Generalist Agent"
PPTX
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【メタサーベイ】基盤モデル / Foundation Models
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
【DL輪読会】Scaling Laws for Neural Language Models
失敗から学ぶ機械学習応用
【DL輪読会】"A Generalist Agent"
[DL輪読会]Learning Latent Dynamics for Planning from Pixels

What's hot

PDF
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
PDF
ChatGPTは思ったほど賢くない
PDF
ChatGPT 人間のフィードバックから強化学習した対話AI
PDF
全力解説!Transformer
PDF
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
PPTX
物体検出の歴史(R-CNNからSSD・YOLOまで)
PPTX
画像認識と深層学習
PDF
最適輸送の解き方
PDF
画像生成・生成モデル メタサーベイ
PPTX
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
PPTX
【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools
PDF
GAN(と強化学習との関係)
PPTX
StyleGAN解説 CVPR2019読み会@DeNA
PDF
深層生成モデルと世界モデル
PDF
顕著性マップの推定手法
PPTX
多目的強凸最適化のパレート集合のトポロジー
PPTX
How Much Position Information Do Convolutional Neural Networks Encode?
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
PPTX
Tensor コアを使った PyTorch の高速化
PPTX
Depth Estimation論文紹介
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
ChatGPTは思ったほど賢くない
ChatGPT 人間のフィードバックから強化学習した対話AI
全力解説!Transformer
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
物体検出の歴史(R-CNNからSSD・YOLOまで)
画像認識と深層学習
最適輸送の解き方
画像生成・生成モデル メタサーベイ
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools
GAN(と強化学習との関係)
StyleGAN解説 CVPR2019読み会@DeNA
深層生成モデルと世界モデル
顕著性マップの推定手法
多目的強凸最適化のパレート集合のトポロジー
How Much Position Information Do Convolutional Neural Networks Encode?
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Tensor コアを使った PyTorch の高速化
Depth Estimation論文紹介

Similar to DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化

PPTX
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
PDF
モデルアーキテクチャ観点からのDeep Neural Network高速化
PDF
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
PDF
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
 
PPTX
MIRU2014 tutorial deeplearning
PPTX
深層学習とTensorFlow入門
PDF
なぜGPUはディープラーニングに向いているか
PDF
「ゼロから作るDeep learning」の畳み込みニューラルネットワークのハードウェア化
PDF
Deep learning実装の基礎と実践
PPT
Deep Learningの技術と未来
PPTX
Image net classification with Deep Convolutional Neural Networks
PDF
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
PDF
NVIDIA ディープラーニング入門
PPTX
「機械学習とは?」から始める Deep learning実践入門
PDF
ディープラーニング最近の発展とビジネス応用への課題
PDF
MII conference177 nvidia
PDF
EuroPython 2017 外部向け報告会
PDF
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
PDF
20140726.西野研セミナー
PPTX
機械学習 / Deep Learning 大全 (2) Deep Learning 基礎編
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
モデルアーキテクチャ観点からのDeep Neural Network高速化
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
 
MIRU2014 tutorial deeplearning
深層学習とTensorFlow入門
なぜGPUはディープラーニングに向いているか
「ゼロから作るDeep learning」の畳み込みニューラルネットワークのハードウェア化
Deep learning実装の基礎と実践
Deep Learningの技術と未来
Image net classification with Deep Convolutional Neural Networks
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
NVIDIA ディープラーニング入門
「機械学習とは?」から始める Deep learning実践入門
ディープラーニング最近の発展とビジネス応用への課題
MII conference177 nvidia
EuroPython 2017 外部向け報告会
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
20140726.西野研セミナー
機械学習 / Deep Learning 大全 (2) Deep Learning 基礎編

More from RCCSRENKEI

PDF
第5回 配信講義 計算科学技術特論B(2022)
PDF
第15回 配信講義 計算科学技術特論A(2021)
PPT
第7回 配信講義 計算科学技術特論B(2022)
PPTX
Fugaku, the Successes and the Lessons Learned
PDF
第8回 配信講義 計算科学技術特論B(2022)
PDF
第10回 配信講義 計算科学技術特論B(2022)
PDF
第14回 配信講義 計算科学技術特論B(2022)
PDF
第11回 配信講義 計算科学技術特論B(2022)
PDF
第1回 配信講義 計算科学技術特論B(2022)
PDF
第12回 配信講義 計算科学技術特論B(2022)
PDF
第9回 配信講義 計算科学技術特論B(2022)
PDF
第4回 配信講義 計算科学技術特論B(2022)
PDF
第15回 配信講義 計算科学技術特論B(2022)
PDF
第2回 配信講義 計算科学技術特論B(2022)
PPT
第6回 配信講義 計算科学技術特論B(2022)
PDF
210603 yamamoto
PDF
第13回 配信講義 計算科学技術特論B(2022)
PDF
第3回 配信講義 計算科学技術特論B(2022)
PDF
Current status of the project "Toward a unified view of the universe: from la...
PPTX
Realization of Innovative Light Energy Conversion Materials utilizing the Sup...
第5回 配信講義 計算科学技術特論B(2022)
第15回 配信講義 計算科学技術特論A(2021)
第7回 配信講義 計算科学技術特論B(2022)
Fugaku, the Successes and the Lessons Learned
第8回 配信講義 計算科学技術特論B(2022)
第10回 配信講義 計算科学技術特論B(2022)
第14回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)
第1回 配信講義 計算科学技術特論B(2022)
第12回 配信講義 計算科学技術特論B(2022)
第9回 配信講義 計算科学技術特論B(2022)
第4回 配信講義 計算科学技術特論B(2022)
第15回 配信講義 計算科学技術特論B(2022)
第2回 配信講義 計算科学技術特論B(2022)
第6回 配信講義 計算科学技術特論B(2022)
210603 yamamoto
第13回 配信講義 計算科学技術特論B(2022)
第3回 配信講義 計算科学技術特論B(2022)
Current status of the project "Toward a unified view of the universe: from la...
Realization of Innovative Light Energy Conversion Materials utilizing the Sup...

DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化


[8]ページ先頭

©2009-2025 Movatter.jp