Embed presentation
Download as PDF, PPTX
















![CNN: Convolution Neural Networkフルコネクション (全結合層) cuBLASコンボリューション (畳み込み層) cuDNNLeNet5 [LeCun et al.,1998]](/image.pl?url=https%3a%2f%2fimage.slidesharecdn.com%2f05-akira-150819140404-lva1-app6892%2f75%2fGPU-17-2048.jpg&f=jpg&w=240)


![全結合層x[N] y[M]w[N][M]𝑦 𝑖 = 𝐹𝑗(𝑤 𝑖 𝑗 × 𝑥 𝑗 )](/image.pl?url=https%3a%2f%2fimage.slidesharecdn.com%2f05-akira-150819140404-lva1-app6892%2f75%2fGPU-20-2048.jpg&f=jpg&w=240)
![全結合層x[N] y[M]w[N][M]x =w[N][M] x[N] y[M]行列 ベクトル𝑦 𝑖 = 𝐹𝑗(𝑤 𝑖 𝑗 × 𝑥 𝑗 )](/image.pl?url=https%3a%2f%2fimage.slidesharecdn.com%2f05-akira-150819140404-lva1-app6892%2f75%2fGPU-21-2048.jpg&f=jpg&w=240)
![行列とベクトルの乗算全結合層x[N] y[M]w[N][M]x =w[N][M] x[N] y[M]メモリバンド幅で性能が決まるXeon E5-2690v3 Tesla K4068 GB/s 288 GB/sピークメモリバンド幅行列 ベクトル](/image.pl?url=https%3a%2f%2fimage.slidesharecdn.com%2f05-akira-150819140404-lva1-app6892%2f75%2fGPU-22-2048.jpg&f=jpg&w=240)
![全結合層x[N] y[M]w[N][M]x =w[N][M] x[N] y[M]ミニバッチ: 複数データで同時学習行列 ベクトル](/image.pl?url=https%3a%2f%2fimage.slidesharecdn.com%2f05-akira-150819140404-lva1-app6892%2f75%2fGPU-23-2048.jpg&f=jpg&w=240)
![行列と行列の乗算全結合層x[K][N] y[K][M]w[N][M]x =w[N][M] x[K][N] y[K][M]高い演算能力を発揮できるXeon E5-2690v3 Tesla K400.88 TFLOPS 4.29 TFLOPSピーク演算性能(単精度)行列 行列](/image.pl?url=https%3a%2f%2fimage.slidesharecdn.com%2f05-akira-150819140404-lva1-app6892%2f75%2fGPU-24-2048.jpg&f=jpg&w=240)

![CNN: Convolution Neural Networkフルコネクション (全結合層) cuBLASコンボリューション (畳み込み層) cuDNNLeNet5 [LeCun et al.,1998]](/image.pl?url=https%3a%2f%2fimage.slidesharecdn.com%2f05-akira-150819140404-lva1-app6892%2f75%2fGPU-26-2048.jpg&f=jpg&w=240)











![LENET5LeNet5 [LeCun et al.,1998]OutputsFilter(Expanded)Inputs16100 * batch size150150](/image.pl?url=https%3a%2f%2fimage.slidesharecdn.com%2f05-akira-150819140404-lva1-app6892%2f75%2fGPU-38-2048.jpg&f=jpg&w=240)
![GOOGLENETGoogLeNet [Szegedy et al.,2014]OutputsFilter(Expanded)Inputs1923136 * batch size576576LENET5 GOOGLENET0.24 x Bs 346 x Bs1回の演算量(MFLOP)](/image.pl?url=https%3a%2f%2fimage.slidesharecdn.com%2f05-akira-150819140404-lva1-app6892%2f75%2fGPU-39-2048.jpg&f=jpg&w=240)
![cuDNN API畳み込み演算cudnnConvolutionForward()cudnnConvolutionBackward[Bias|Filter|Data]()活性化cudnnActivationForward()cudnnActivationBackward()プーリングcudnnPoolingForward()cudnnPoolingBackward()ソフトマックスcudnnSoftmaxForward()cudnnSoftmaxBackward()…](/image.pl?url=https%3a%2f%2fimage.slidesharecdn.com%2f05-akira-150819140404-lva1-app6892%2f75%2fGPU-40-2048.jpg&f=jpg&w=240)
![GPUはディープラーニングの全フェーズを加速cuBLASLeNet5 [LeCun et al.,1998]](/image.pl?url=https%3a%2f%2fimage.slidesharecdn.com%2f05-akira-150819140404-lva1-app6892%2f75%2fGPU-41-2048.jpg&f=jpg&w=240)
![性能測定結果AlexNet [A. Krizhevsky et al.,2012]2.5M18M23M43M0102030405016 Core CPU GTX Titan Titan BlackcuDNN v1Titan XcuDNN v2画像数(M)1日あたりの学習画像数 (Caffe)E5-2698 v3 @ 2.3GHz / 3.6GHz Turbo](/image.pl?url=https%3a%2f%2fimage.slidesharecdn.com%2f05-akira-150819140404-lva1-app6892%2f75%2fGPU-42-2048.jpg&f=jpg&w=240)












2015年8月19日 ディープラーニングセミナー2015名古屋ルーセントタワーエヌビディア合同会社 シニアデベロッパーテクノロジー エンジニア 成瀬彰[概要]本講演では、モルフォが取り組むDeep Learning(以下、DL)ビジネスについての概要と、実用化に 向けてディープラーニングではGPU利用がデファクトになっていますが、GPUを使うとなぜディープラーニングの学習フェーズを加速できるのか、その技術的な背景・理由を説明するとともに、エヌビディアのディープラーニング関連ソフトウェアの最新情報を紹介致します。
















![CNN: Convolution Neural Networkフルコネクション (全結合層) cuBLASコンボリューション (畳み込み層) cuDNNLeNet5 [LeCun et al.,1998]](/image.pl?url=https%3a%2f%2fimage.slidesharecdn.com%2f05-akira-150819140404-lva1-app6892%2f75%2fGPU-17-2048.jpg&f=jpg&w=240)


![全結合層x[N] y[M]w[N][M]𝑦 𝑖 = 𝐹𝑗(𝑤 𝑖 𝑗 × 𝑥 𝑗 )](/image.pl?url=https%3a%2f%2fimage.slidesharecdn.com%2f05-akira-150819140404-lva1-app6892%2f75%2fGPU-20-2048.jpg&f=jpg&w=240)
![全結合層x[N] y[M]w[N][M]x =w[N][M] x[N] y[M]行列 ベクトル𝑦 𝑖 = 𝐹𝑗(𝑤 𝑖 𝑗 × 𝑥 𝑗 )](/image.pl?url=https%3a%2f%2fimage.slidesharecdn.com%2f05-akira-150819140404-lva1-app6892%2f75%2fGPU-21-2048.jpg&f=jpg&w=240)
![行列とベクトルの乗算全結合層x[N] y[M]w[N][M]x =w[N][M] x[N] y[M]メモリバンド幅で性能が決まるXeon E5-2690v3 Tesla K4068 GB/s 288 GB/sピークメモリバンド幅行列 ベクトル](/image.pl?url=https%3a%2f%2fimage.slidesharecdn.com%2f05-akira-150819140404-lva1-app6892%2f75%2fGPU-22-2048.jpg&f=jpg&w=240)
![全結合層x[N] y[M]w[N][M]x =w[N][M] x[N] y[M]ミニバッチ: 複数データで同時学習行列 ベクトル](/image.pl?url=https%3a%2f%2fimage.slidesharecdn.com%2f05-akira-150819140404-lva1-app6892%2f75%2fGPU-23-2048.jpg&f=jpg&w=240)
![行列と行列の乗算全結合層x[K][N] y[K][M]w[N][M]x =w[N][M] x[K][N] y[K][M]高い演算能力を発揮できるXeon E5-2690v3 Tesla K400.88 TFLOPS 4.29 TFLOPSピーク演算性能(単精度)行列 行列](/image.pl?url=https%3a%2f%2fimage.slidesharecdn.com%2f05-akira-150819140404-lva1-app6892%2f75%2fGPU-24-2048.jpg&f=jpg&w=240)

![CNN: Convolution Neural Networkフルコネクション (全結合層) cuBLASコンボリューション (畳み込み層) cuDNNLeNet5 [LeCun et al.,1998]](/image.pl?url=https%3a%2f%2fimage.slidesharecdn.com%2f05-akira-150819140404-lva1-app6892%2f75%2fGPU-26-2048.jpg&f=jpg&w=240)











![LENET5LeNet5 [LeCun et al.,1998]OutputsFilter(Expanded)Inputs16100 * batch size150150](/image.pl?url=https%3a%2f%2fimage.slidesharecdn.com%2f05-akira-150819140404-lva1-app6892%2f75%2fGPU-38-2048.jpg&f=jpg&w=240)
![GOOGLENETGoogLeNet [Szegedy et al.,2014]OutputsFilter(Expanded)Inputs1923136 * batch size576576LENET5 GOOGLENET0.24 x Bs 346 x Bs1回の演算量(MFLOP)](/image.pl?url=https%3a%2f%2fimage.slidesharecdn.com%2f05-akira-150819140404-lva1-app6892%2f75%2fGPU-39-2048.jpg&f=jpg&w=240)
![cuDNN API畳み込み演算cudnnConvolutionForward()cudnnConvolutionBackward[Bias|Filter|Data]()活性化cudnnActivationForward()cudnnActivationBackward()プーリングcudnnPoolingForward()cudnnPoolingBackward()ソフトマックスcudnnSoftmaxForward()cudnnSoftmaxBackward()…](/image.pl?url=https%3a%2f%2fimage.slidesharecdn.com%2f05-akira-150819140404-lva1-app6892%2f75%2fGPU-40-2048.jpg&f=jpg&w=240)
![GPUはディープラーニングの全フェーズを加速cuBLASLeNet5 [LeCun et al.,1998]](/image.pl?url=https%3a%2f%2fimage.slidesharecdn.com%2f05-akira-150819140404-lva1-app6892%2f75%2fGPU-41-2048.jpg&f=jpg&w=240)
![性能測定結果AlexNet [A. Krizhevsky et al.,2012]2.5M18M23M43M0102030405016 Core CPU GTX Titan Titan BlackcuDNN v1Titan XcuDNN v2画像数(M)1日あたりの学習画像数 (Caffe)E5-2698 v3 @ 2.3GHz / 3.6GHz Turbo](/image.pl?url=https%3a%2f%2fimage.slidesharecdn.com%2f05-akira-150819140404-lva1-app6892%2f75%2fGPU-42-2048.jpg&f=jpg&w=240)










