Movatterモバイル変換

Akira Naruse, 2020/7/16DEEP LEARNING、トレーニング・インファレンスの GPU による高速化

2アジェンダディープラーニング概要• ディープラーニングの歴史・基礎• さまざまなネットワークと応用• 何故、計算負荷が重いのか？トレーニングの加速• 低精度演算 (16-bit 浮動小数点)• マルチノードインファレンスの最適化• 量子化 (Quantization)• モデル圧縮 (Pruning)

3ディープラーニング概要

44様々な分野で活用されるディープラーニングインターネットとクラウド画像分類音声認識言語翻訳言語処理感情分析推薦メディアとエンターテイメント字幕ビデオ検索リアルタイム翻訳機械の自動化歩行者検出白線のトラッキング信号機の認識セキュリティと防衛顔検出ビデオ監視衛星画像医学と生物学癌細胞の検出糖尿病のランク付け創薬

CHASING 1060 CHEMICALCOMPOUNDSIdentifying molecules with desirable chemical properties is centralto manyindustries. In the chemicalspace of 1060 conceivable compounds, only108 have been synthesized.Screening even a small fraction of the remaining compounds with legacymethods would take 100 node-seconds per compound.Researchers at Dow are using GPU-powered deep learning to delivercompletely novelmolecular structures with specific properties.The AI produced 3M promising chemicalleads in 1 day on an NVIDIA DGX.

AI IS SPEEDING THE PATH TO FUSION ENERGYFusion, the future of energy on Earth, is a highly sensitive process where small environmentaldisruptions can stall reactions and damagemulti-billion machines. Current models predict disruptions with 85% accuracy — ITER will need something more precise.Researchers at Princeton University developed the GPU-powered Fusion Recurrent NeuralNetwork (FRNN) to predict disruptions. FRNNhas achieved 90% accuracy and is on the path to achieving 95% accuracy necessary for ITER’s tests.Visualization courtesy of Jamison Daniel, Oak Ridge Leadership Computing Facility

7ディープラーニングは機械学習の一分野人工知能（AI）ディープラーニング（深層学習）マシンラーニング（機械学習）

8ディープラーニングの歴史機械学習の一手法として82012:画像認識コンペでの圧勝2011:音声認識コンペでの圧勝2006:事前学習とautoencoderによる多層ネットワークの学習1992～:非線形SVM等の流行1989:畳み込みニューラルネットワークの提案1986:誤差逆伝播法の提案1980:ネオコグニトロンの提案1969:(単純)パーセプトロンの限界が明らかになる1958:パーセプトロンの発表1940～50年代:人工知能の提唱第一次ブーム: ～1970 第二次ブーム: ～1990 第三次ブーム: ～20??

9DEEP LEARNINGを可能にしたものアルゴリズム大量のデータ計算性能Deep Learning found GPU and GPU enabled Deep Learning

10人工ニューロン神経回路網をモデル化スタンフォード大学cs231講義ノートより神経回路網w1 w2 w3x1 x2 x3yy=F(w1x1+w2x2+w3x3)F(x)=max(0,x)人工ニューロン（パーセプトロン）

11人工ニューラルネットワーク人工ニューロンを基本単位とするネットワーク構造11w1 w2 w3x1 x2 x3yy=w1x1+w2x2+w3x3人工ニューロン（パーセプトロン）人工ニューラルネットワーク人工ニューロンをたくさんの層として並べる各層にそれぞれ重みパラメータを持つ

12人工ニューラルネットワーク活性化関数12w1w2w3x1x2x3y=w1x1+w2x2+w3x3人工ニューロン（パーセプトロン）y Fz=F(y)F: activation function活性化関数(activation function)z 次の層tanhReLUsigmoid

13人工ニューラルネットワーク基本構造のまとめ13各ノードは入力された値を合計して出力各ユニット（ノードとも）の出力は、各層の重みと積算され次の層へ活性化関数による変換

14トレーニングの流れForward Propagation損失関数誤差入力入力をうけとり、第一層から順番に、指定された計算を行い、結果を出力結果と正解から、指定された損失関数に基づき、誤差を得る正解(ねこ)

15トレーニングの流れBackward Propagation損失関数誤差連鎖律に基づき、得られた誤差を起点に、Forward Propagationとは逆順に誤差を伝搬し、各層のパラメータの勾配を計算する勾配勾配勾配勾配勾配勾配勾配

16トレーニングの流れUpdate Parameters得られた勾配に基づいて、各層のパラメータを更新する勾配勾配勾配勾配勾配勾配勾配

17重み更新勾配法による更新17重み w誤差 E最適解現在値誤差を最小化する重みが最適解ニューラルネットワークの内部状態（＝重み）に応じて誤差は変動

18重み更新勾配法による更新18重み w誤差 E最適解傾きが正（＝右上がり）なら値を減少させる傾きが負（＝右下がり）なら値を増加させるwn wm

19重み更新勾配法による更新19重み w誤差 E最適解傾きが正（＝右上がり）なら値を減少させる傾きが負（＝右下がり）なら値を増加させるwn wm傾き（=勾配ベクトル）により重みを逐次更新

20重み更新勾配法による更新20重み w誤差 Ewnwn+1wn+2最適解(ゴール)少しずつ更新

21ディープラーニングのアプローチDogCatHoney badger誤差逆伝搬犬猫アライグマトレーニング:十分な精度が得られるまで、これを延々と繰り返す

22ディープラーニングのアプローチDogCatHoney badger誤差逆伝搬犬トラアライグマインファレンス:犬トレーニング:学習済みモデル

さまざまなネットワークと応用

24基本的なネットワーク多層ニューラルネットワーク24前層の全ノードが次層のノードに接続されている状態↓全結合している

25畳み込みニューラルネットワーク (CNN)画像を扱うことに長けたネットワーク25畳み込み層全結合層

26畳み込み層 (CONVOLUTION)26000000001110000122111012221101222110011111000000040000000-410-8入力ピクセルコンボリューションカーネル出力ピクセル入力とカーネルとで要素同士の積を計算し、全て足したものが出力カーネルの重みも学習によって調整される

27CNN の応用27画像分類物体検出領域分割/セマンティックセグメンテーションなどなど……

28リカレントニューラルネットワーク (RNN)系列データを自然に扱うためのネットワーク28隠れ層の出力を隠れ層の入力として戻す出力層隠れ層入力層

29リカレントニューラルネットワーク (RNN)系列データを自然に扱うためのネットワーク29出力層隠れ層入力層展開出力層隠れ層入力層出力層隠れ層入力層t = 1 t = 2前の出力を次の入力にすることで、依存関係を考慮長い系列ほど深いネットワークになる

30LSTM: LONG SHORT-TERM MEMORYRNNの欠点を解消するネットワーク30出力層隠れ層入力層RNNの隠れ層をLSTMブロックで置き換えいくつかのゲートにより長期の依存関係を学習可能に

31RNN/LSTMの応用31系列データ予測次が上がるのか下がるのかを予測異常予測定常的なふるまいと異なる動作を予測などなど……

32何故、計算負荷が重いのか？

33全結合層 (FULLY CONNECTED LAYER)行列ベクトル積 (y = Wx)Ny計算量:2 * 出力ノード数 (Ny)* 入力ノード数 (Nx)入力 x 出力 y重み WNx重み W入力 x出力 yNyNxNx[性能律速点]メモリバンド幅

34全結合層 (FULLY CONNECTED LAYER)ミニバッチ学習で、行列積に (Y = W・X)重み W計算量:2 * 出力ノード数 (Ny)* 入力ノード数 (Nx)* ミニバッチサイズ (Nb)入力 X 出力 Y重み WNb * Nx Nb * Ny入力 X出力 YNyNxNxNb[性能律速点]演算性能

35全結合層Forwardは、行列積全結合層X YMatmulW誤差入力Y = W・X

36全結合層Backwardも、行列積全結合層X YMatmulW誤差入力gYgX = Wt・gYgW = gY・XtgWgXBackward の計算量は、Forward より、2 倍程度多いY = W・X

37畳み込みニューラルネットワークConvolutional Neural Network37全結合層

38LSTM: LONG SHORT-TERM MEMORYY = W・X 相当の計算が 4 つ38出力層LSTM入力層

39LSTM: LONG SHORT-TERM MEMORYスタック LSTM39LSTMX (t=0)LSTMLSTMY (t=0)

40LSTM: LONG SHORT-TERM MEMORY系列データ40LSTMX (t=0)LSTMLSTMY (t=0)LSTMX (t=1)LSTMLSTMY (t=1)LSTMX (t=N)LSTMLSTMY (t=N)

41畳み込みニューラルネットワークConvolutional Neural Network41畳み込み層

420000000011100001221110122211012221100111110000000入力コンボリューションカーネル出力コンボリューションカーネルの係数と、入力ピクセルを掛け、足し合わせた値を出力とする。畳込み層 (CONVOLUTIONAL LAYER)40000000-4-8重み

43CONVOLUTION ~ 行列積Y = W・X’0481215913261014371115入力 X出力 Y036147258 0481219132610143711155重み W0 1 2 3 4 5 6 7 8 0 5 10 1554-21----986542109765----10101113141510111415-重み W 出力 Y入力 X’img2col 変形

44CONVOLUTION ~ 行列積0481215913261014371115入力 X(Niw * Nih)出力 Y(Now * Noh)036147258 0481219132610143711155重み W(Kw * Kh)入力 X’Kw * KhKw*KhNow * Noh重み W 出力 Yこれ、行列積じゃなくて、行列ベクトル積では？計算量:2 * Kw * Kh * Now * Noh

45CONVOLUTION ~ 行列積0481215913261014371115 036147258 0481219132610143711155重み W 出力 Y入力 X’Kw * Kh * NicNocKw*Kh*NicNow * Noh * Nb入力 X(Niw * Nih)出力 Y(Now * Noh)重み W(Kw * Kh)計算量:2 * Kw * Kh * Now * Noh* Noc * Nic * Nb

46畳み込み層Forwardは、行列積(相当)畳み込み層X YConvW誤差入力Y = W・X’

47畳み込み層Backwardも、行列積(相当)畳み込み層X YConvW誤差入力gYgX’ = Wt・gYgW = gY・X’tgWgXY = W・X’

48行列積、行列積、行列積、、学習で時間のかかるのは、全結合層と畳込み層どちらも、積和演算の塊とみなすことができる（行列積）• C = A・B様々なサイズの行列積を高速に実行できるマシンが、学習には必要いろいろなサイズcuBLAS

49トレーニングの高速化

巨大化するネットワーク

51多様なDL モデルCONVOLUTIONALNETWORKSRECURRENTNETWORKSGENERATIVEADVERSARIALNETWORKSREINFORCEMENT LEARNING NEW SPECIESDQN Simulation DDPG Mixture of Experts NeuralCollaborative FilteringBlock SparseLSTMCapsule NetsReLuEncoder/DecoderDropout PoolingConcatBatchNormGRULSTMCTCBeam SearchWaveNet Attention3D-GANSpeech EnhancementGANCoupled GANConditional GANMedGAN

52計算パワーは、もっと必要なのか?アプリケーションに依存• 自然言語処理系は拡大• 画像処理系は収束？

53自動運転に必要なものSemanticSegmentationObjectDetectionLocalizationPlanning

54計算パワーは、もっと必要なのか?IT分野からミッションクリティカル分野に拡大• ミッションクリティカル分野では、より高い精度が必要• 例:自動運転、99%の正解率で十分?Question: もっと精度を上げるにはどうすればよいのか

55モデル精度向上には、教師データ増が有効• 深層学習の成功の要因（画像処理系）• 大規模な教師データ• NNモデルの多層化・大容量化• 計算パワーの増大• Q: 教師データをもっと増やしたら何が起きるのか• ImageNet: 120万枚の画像• JFT-300M: 3億枚の画像 (ラベルはnoisy)Chen Sun et al., “Revisiting Unreasonable Effectiveness of Data inDeep Learning Era”, 2017

56モデル精度向上には、教師データ増が有効Chen Sun et al., “Revisiting Unreasonable Effectiveness of Data inDeep Learning Era”, 2017教師データサイズと認識精度の関係Object detection (ResNet-101)左:COCO, 右:PASCALVOC 2007モデルサイズと認識精度の関係Object detection (COCO)ResNet-50/101/152教師データサイズの指数に比例して精度向上モデルサイズ増で精度向上ただし大量の教師データ必要BetterBetter

57どうやってトレーニング時間を短縮するか• 単体（1ノード, 1GPU）のスピードを上げる• 演算精度を下げて、性能を上げる (半精度、専用ユニット)• 多数のノード/GPUを使う• 大量のノードを使って、一つのモデルのトレーニング時間を短縮する

58低精度演算 (16-BIT 浮動小数点)

59DLトレーニングに必要な演算精度は?• 乗算は低精度でOK (FP32より低精度で問題ない)• 浮動小数点の方が良い• パラメータ更新には高精度 (FP32) を使用した方が良いMatthieu Courbariaux et al., “Training Deep Neural Networks with LowPrecision Multiplication”, 2014レンジexponent精度mantissaFP32e8 m23se8 m7e5 m10FP16 sBF16 ssignFP16 vs. BF16 論争• FP16: 精度が良い• BF16: オーバーフロー発生しない (使いやすい)行列積は 16-bit 浮動小数点で十分

60BF16で行列演算を高速に実行DLトレーニング向けチップGoogle TPUv3123 TFLOPS x4(*) Google社より引用Habana Gaudi?? TOPS(*) habana社より引用

61TENSOR CORE低精度行列演算ユニットTFLOPS V100 A100FP32 (標準) 15.7 19.5TF32 (TensorCore) --- 156FP16/BF16 (TensorCore) 125 (FP16) 31216-bit16-bit× + 32-bit32-bit16-bit 32-bit

62A100 の行列積性能 (実測)A100 FP32 (FMA) と比較• TF32: 約 7x 性能UP• FP16/BF16: 約 14x 性能UPcuBLAS 11.0FP32 (FMA)Better

63A100 のトレーニング性能 (言語モデル)V100 FP32 に対するスピードアップSpeedupA100 TF32 A100 FP16

64マルチノードでトレーニング

65マルチノード・トレーニング (分散学習)• 多数の演算ノード、GPUを使って学習を加速• モデル精度を下げずに、学習時間を短縮するテクニックの研究開発、ホットトピック• Facebook, Google, Microsoft,PFN, Tencent, SONY, …(*) Priya Goyal, et al., Facebook,“Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour”Better

66GPU2データ並列とモデル並列GPU1GPU1GPU2データ並列モデル並列• データセットを分割する• 各GPUは、分割後の別サブデータセットを担当• GPU間のデータ交換量少ない• モデルを分割する• 各GPUは、分割後の別サブモデルを担当• GPU間のデータ交換量多い

67データ並列: 同期更新と非同期更新同期更新非同期更新GPU1GPU1GPU2GPU2GPU3GPU3Forward Backward UpdateForward Backward UpdateForward Backward UpdateGradientsExchangeForward BackwardForward BackwardForward Backwardパラーメータサーバ

68非同期更新 → 同期更新• 非同期更新の問題: Staleness• 過去モデルで計算した勾配で、最新モデルを更新Jianmin Chen at el., “Revisiting Distributed Synchronous SGD”, 2017• ワーカー数を冗長に設定: N + b• N ワーカーから勾配が届いたら、残りの bワーカーを待たずに、モデル更新• 外乱の少ないHomogeneousな環境であれば、b = 0でも問題ない？BetterBetter

69データ並列＋同期更新の課題• スケーラビリティ• 精度: モデル精度が低下する• ノード数増 ≒ バッチサイズ増• Facebook: 8Kバッチ(256GPU)まで維持• PFN: 32Kバッチ(1024GPU)まで維持• 性能: 勾配交換の時間が増加する• 1024GPU: 2割以上が通信時間ImageNet, ResNet50, 32バッチ/GPU(*) Priya Goyal, et al., Facebook,“Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour”Better

70データ並列＋同期更新の課題• スケーラビリティ• 精度: モデル精度が低下する• ノード数増 ≒ バッチサイズ増• Facebook: 8Kバッチ(256GPU)まで維持• PFN: 32Kバッチ(1024GPU)まで維持• 性能: 勾配交換の時間が増加する• 1024GPU: 2割以上が通信時間(*) www.preferred-networks.jp/docs/imagenet_in_15min.pdfImageNet, ResNet50, 32バッチ/GPUBetter

71モデル精度を維持しつつ、バッチサイズを増やす• ラーニングレートの低下と、バッチサイズの増加は、SGD的に等価• Noise scale:• ε:ラーニングレート• B:バッチサイズ• 数十epoch経過したら、ラーニングレートを下げる代わりに、バッチサイズを増やせば良いSamuel L. Smith, et al., “Don’t’ Decay theLearning Rate, Increase the Batch Size”, 2017Better

72勾配交換の通信量を減らす• 99%以上の勾配は、交換しなくても問題ない?“Deep Gradient Compression: Reducing the Communication Bandwidthfor Distributed Training”, 2017

73NVIDIA NCCL• マルチGPU、マルチノード対応、深層学習用通信ライブラリ• ノード内• PCIe, NVLINK• ノード間• TPC/IP, InfiniBandMulti-GPU and Multi-node Collective Communication Primitives• All-gather• All-reduce• Broadcast• Reduce• Reduce-scatter

74NVIDIA NCCLMulti-GPU and Multi-node Collective Communication PrimitivesBetterBetter

75分散学習(データ並列)の最前線?Processor DL framework Time (minutes)Facebook Tesla P100 x256 Caffe2 60Google TPUv2 x256 TensorFlow 30PFN Tesla P100 x1024 Chainer 15Tencent Tesla P40 x2048 TensorFlow 6.6SONY Tesla V100 x2176 NNL 3.7Google TPUv3 x1024 TensorFlow 2.3NVIDIA Tesla V100 x1536 MXNet 1.33Google TPUv3 x2048 TensorFlow 1.28Fujitsu Tesla V100 x2048 MXNet 1.17ImageNet + ResNet50

762240 x A100#7 in top500NVIDIA Selene

77インファレンスの最適化

78ディープラーニングのアプローチDogCatHoney badger誤差逆伝搬犬トラアライグマインファレンス:犬トレーニング:学習済みモデル

79インファレンスの特徴• モデルは学習済み• Forwardのみ。BackwardとUpdateは不要• トレーニングと比べると、計算負荷は低い• 様々な場所で実行される可能性: クラウド, 移動体, スマホ, IoT, …• 低消費電力: 演算負荷を下げたい• 小容量メモリ: モデルサイズを小さくしたい• 低レスポンス時間: バッチサイズは大きくできない

80インファレンス向けモデル最適化モデルサイズの削減 (計算負荷の削減)• Quantization: モデルの表現 bit 数を減らす (例: FP32/FP16 → INT8)• Pruning: モデル内の重要度の低いパラメータを、刈り取る

82インファレンスに必要な計算精度• FP32はインファレンスには過剰、FP16/INT8で十分• 初代 Google TPU (インファレンス専用) は INT8 チップ• ウェイトは2 or 3値で十分と主張している研究もある• 2 or 3値だと、一般的にモデル精度が低下• 精度確保のためモデル変更が必要になることが多い(*) “In-Datacenter Performance Analysis of a Tensor Processing UnitTM”

83インファレンスに必要な計算精度• FP32はインファレンスには過剰、FP16/INT8で十分• 初代Google TPU (インファレンス専用) はINT8チップ(*) Matthieu Courbariaux, et al., “BinaryConnect: Training DeepNeural Networks with binary weights during propagations”• ウェイトは2 or 3値で十分と主張している研究もある• 2 or 3値だと、一般的にモデル精度が低下• 精度確保のためモデル変更が必要になることが多いBetter

84インファレンス向けに計算精度を下げる方法• 学習中に、低精度モデルを作る• 複数の精度でウェイトを管理 (例: FP16/32 と INT8)• INT8 で Forward• FP16/32 で Backward & Update• FP32 で学習したモデルから、低精度モデルを作る• FP32 でモデルをトレーニング• 学習完了後に、パラメータを INT8 に量子化(*) Wikipediaより引用量子化と量子化誤差

85学習完了後に低精度モデルを作る学習済みモデルのウェイトを、FP32/FP16からINT8に変換する課題: INT8は、FP32と比べて、非常にDynamic Rangeが狭い• FP32: 1.4 x 10-45 ～ 3.4 x 1038• FP16: 5.96 x 10-8 ～ 65504• INT8: 1 ～ 127単純なデータ型変換(cast)では、対応不可能 → 量子化が必要FP32/FP16 → INT8

86線形量子化飽和無し全てこれにすると、精度ロス大飽和有りActivationで精度改善効果ありINT8 array = FP32/16 array / scale factor

87量子化とモデル精度8-bit INT に量子化しても、同程度の精度を維持B. Jacob, et. al., “Quantization and Training of Neural Networks forEfficient Integer-Arithmetic-Only Inference”Image classification Object detection

89PRUNING• 直感:• モデルには大量のパラメータが存在• 出力への影響度はパラメータ毎に違うはず• Pruning:• 学習済モデルから、影響度の低いパラメータを、切り取る• モデルサイズを小さくできる、かつ、演算量を削減できる• 一般的にはPruningすると精度が低下→ 再トレーニング(Fine-tuning)が必要• 1990年代からあるアイデア、多数の研究が存在モデルサイズ・演算量の削減(*) Song Han, “Deep Compression and EIE”, GTC 2016

90PRUNING• 反復 Pruning• 一度に大量のパラメータを切り取ると、モデル精度が大きく低下、再トレーニングしても精度を回復できない• 小刻みに Pruning と Fine-tuning を繰り返す• 影響度のランキング方法• ウェイトやアクティベーションの、絶対値、L1/L2ノルム、標準偏差、等などモデルサイズ・演算量の削減

91PRUNING事例• VGG-16での評価結果Pavlo, et al., “Pruning Convolutional Neural Networks for ResourceEfficient Inference”, 2017BetterBetter BetterBetter

92PRUNING事例• Quantization（とHuffman coding）との組み合わせ• モデル圧縮率: AlexNetで35倍、VGG-16で49倍 (精度低下ほぼ無し)Song Han, et al., “Deep Compression: Compressing Deep Neural Networks withPruning, Trained Quantization and Huffman Coding”, 2016

93PRUNING事例効果• PruningとQuantizationの組み合わせで、精度ロス無しで、モデルサイズの大幅な圧縮を達成ただし、計算は「疎」になる• 密行列 → 疎行列• 大幅に圧縮しないと、スピードUPしないSong Han, et al., “Deep Compression: Compressing Deep Neural Networks withPruning, Trained Quantization and Huffman Coding”, 2016BetterBetter

94入力データ型積算データ型 TOPS性能UPvs. FP32FP16 FP16 312 16xINT8 INT32 624 32xINT4 INT32 1248 64xBINARY INT32 4992 256xGPUのインファレンス向け機能A100 TensorCore: インファレンス用データ型の行列積も高速化

95入力データ型積算データ型 TOPS性能UPvs. FP32疎行列TOPS疎行列TOPSvs. FP32FP16 FP16 312 16x 624 32xINT8 INT32 624 32x 1248 64xINT4 INT32 1248 64x 2496 128xBINARY INT32 4992 256xGPUのインファレンス向け機能A100 TensorCore: 「構造的」疎行列の高速化

96A100 SPARSE TENSOR CORE構造的に枝刈り(連続4要素の内2要素をゼロに)圧縮非ゼロindex非ゼロ要素ゼロ× dot-productトレーニング後の「重み」行列入力activationsmux重みを再トレーニング出力activationsselect「疎行列化」で計算スループット 2x「重み」行列のメモリ使用量半減「疎行列化」後もインファレンス精度は同等画像・物体認識、セグメンテーション、自然言語モデル、翻訳SparseTensor CoremuxASP: Automatic Sparsity for Retraining in Frameworks

98まとめディープラーニング概要• ディープラーニングの歴史・基礎• さまざまなネットワークと応用• 何故、計算負荷が高いのか？トレーニングの加速• 低精度演算 (16-bit 浮動小数点)• マルチノードインファレンスの最適化• 量子化 (INT8)• モデル圧縮 (Pruning)

DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化

Movatterモバイル変換

Change Language

DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化

Recommended

More Related Content

What's hot

Similar to DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化

More from RCCSRENKEI

DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化