Movatterモバイル変換


[0]ホーム

URL:


NVIDIA Japan, profile picture
Uploaded byNVIDIA Japan
PDF, PPTX23,938 views

なぜGPUはディープラーニングに向いているか

2015年8月19日 ディープラーニングセミナー2015名古屋ルーセントタワーエヌビディア合同会社 シニアデベロッパーテクノロジー エンジニア 成瀬彰[概要]本講演では、モルフォが取り組むDeep Learning(以下、DL)ビジネスについての概要と、実用化に 向けてディープラーニングではGPU利用がデファクトになっていますが、GPUを使うとなぜディープラーニングの学習フェーズを加速できるのか、その技術的な背景・理由を説明するとともに、エヌビディアのディープラーニング関連ソフトウェアの最新情報を紹介致します。

Related topics:

Embed presentation

Download as PDF, PPTX
Akira NaruseDeveloper Technology Engineer, NVIDIAディープラーニング最新技術情報何故GPUはディープラーニングに向いているのか?
AGENDAディープラーニングの現状何故GPUがディープラーニングに向いているのかエヌビディアDIGITSのご紹介
DLが注目されたきっかけ -ILSVRC2012-誤認識率:4.94%, Feb. 6, 2015, Microsoft4.82%, Feb. 11, 2015, Google人間レベルの認識率Accuracy %2010 201420122011 201374%84%Deep LearningCV72%
GTC 2015Deep LearningDeep LearningDeep Learning
GTC: DL SESSIONS408502040608010005101520252014 2015
画像分類、物体認識 顔認識 音声処理、自然言語処理医療画像解析 地層解析(Oil&Gas) レコメンドDL適用分野
DLを用いた車種認識 –NVIDIA CES2015 DEMO-
DLを用いた音声認識 –BAIDU DEEP SPEECH-http://www.ustream.tv/recorded/60113824http://www.ustream.tv/recorded/60113824/highlight/631666From: GTC2015 Keynote sessionDeep Learning: What’s Next, Andrew Ng (Baidu)
画像の説明文の生成 –CNN&RNN-Recognizing the objects in the picture, and assembling word sequences in the textrepresenting the scenery ( Automated Image Captioning) Stanford Univ.http://cs.stanford.edu/people/karpathy/deepimagesent/generationdemo/
ディープラーニングはスケーラブルData & ComputePerformance&AccuracyDeep Learning従来手法Slide courtesy of Adam CoatesYesterday Today Tomorrow
KEYSDLモデル大量データ計算パワー
なぜGPUはディープラーニングに向いているのか?
データ・サイエンティストのワークフロークリティカルパス:Ideaが沸いてからTestが完了するまでサイクルを速く回すことが重要IdeaCodeTrainTestR&D cycle
データ・サイエンティストのワークフローIdeaCodeTrainTest膨大な計算量+ CUDA
DLトレーニングシステムCaffe Theano TorchGPUsChainerDLフレームワークDLアプリケーション
DLトレーニングシステムCaffe Theano TorchGPUsChainerDLフレームワークDLアプリケーションcuBLAS, cuDNN
CNN: Convolution Neural Networkフルコネクション (全結合層) cuBLASコンボリューション (畳み込み層) cuDNNLeNet5 [LeCun et al.,1998]
全結合層Forward (前進)Layer 1 Layer 2 Layer 3 Layer 4
全結合層Backward (誤差逆伝播)Layer 1 Layer 2 Layer 3 Layer 4
全結合層x[N] y[M]w[N][M]𝑦 𝑖 = 𝐹𝑗(𝑤 𝑖 𝑗 × 𝑥 𝑗 )
全結合層x[N] y[M]w[N][M]x =w[N][M] x[N] y[M]行列 ベクトル𝑦 𝑖 = 𝐹𝑗(𝑤 𝑖 𝑗 × 𝑥 𝑗 )
行列とベクトルの乗算全結合層x[N] y[M]w[N][M]x =w[N][M] x[N] y[M]メモリバンド幅で性能が決まるXeon E5-2690v3 Tesla K4068 GB/s 288 GB/sピークメモリバンド幅行列 ベクトル
全結合層x[N] y[M]w[N][M]x =w[N][M] x[N] y[M]ミニバッチ: 複数データで同時学習行列 ベクトル
行列と行列の乗算全結合層x[K][N] y[K][M]w[N][M]x =w[N][M] x[K][N] y[K][M]高い演算能力を発揮できるXeon E5-2690v3 Tesla K400.88 TFLOPS 4.29 TFLOPSピーク演算性能(単精度)行列 行列
行列演算ライブラリ: cuBLAScuBLAS 6.5 on K40m, ECC ON, input and output data on device.MKL 11.0.4 on Intel IvyBridge single socket 12 -core E5-2697 v2 @ 2.70GHzcuBLAS 6.5 on K40m, ECC on, input and output data on device.m=n=k=4096, transpose=no, side=right, fill=lowerGPU向け行列演算ライブラリ(BLAS完全準拠)DLで使われるのは単精度の行列積(SGEMM)
CNN: Convolution Neural Networkフルコネクション (全結合層) cuBLASコンボリューション (畳み込み層) cuDNNLeNet5 [LeCun et al.,1998]
畳み込み層出力特徴量マップ入力特徴量マップ(画像)処理内容: 画像処理のフィルタと類似ガウシアンフィルタ (ぼかし)ソーベルフィルタ (エッジ抽出)他多数画像処理フィルタの特徴フィルタサイズ:小メモリバンド幅が重要フィルタサイズ:大演算性能が重要
畳み込み層出力特徴量マップ入力特徴量マップ多数のフィルタフィルタの係数が学習対象
畳み込み層出力特徴量マップ入力特徴量マップ
畳み込み層畳み込み演算画像処理では、用途に合わせて個別チューニングDLの用途、組み合わせが膨大…出力特徴量マップ入力特徴量マップ
畳み込み層多数パラメータo フィルターのサイズo 入力特徴量マップの数o 入力特徴量マップのサイズo 出力特徴量マップの数o 出力特徴量マップのサイズo ミニバッチのサイズo ストライディング量o パディング量o …個別チューニングは大変出力特徴量マップ入力特徴量マップ
畳み込み層cuDNN行列演算アプローチ出力特徴量マップ入力特徴量マップ
畳み込み層I0 I1 I2I3 I4 I5I6 I7 I8F0 F1F2 F3入力フィルタ(2x2)O0 O1O2 O3出力
畳み込み層I0 I1 I2I3 I4 I5I6 I7 I8F0 F1F2 F3F0 F1 F2 F3I0I1I3I4I1I2I4I5I3I4I6I7I4I5I7I8入力フィルタ出力入力(並び替え)
畳み込み層F0 F1 F2 F3G0 G1 G2 G3I0I1I3I4I1I2I4I5I3I4I6I7I4I5I7I8多数フィルタ出力入力(並び替え)フィルタ
入力(並び替え)畳み込み層F0 F1 F2 F3J0J1J3J4J1J2J4J5J3J4J6J7J4J5J7J8I0I1I3I4I1I2I4I5I3I4I6I7I4I5I7I8G0 G1 G2 G3ミニ・バッチ(複数データで同時学習)出力フィルタF0 F1 F2 F3G0 G1 G2 G3
畳み込み層F0 F1 F2 F3J0J1J3J4J1J2J4J5J3J4J6J7J4J5J7J8I0I1I3I4I1I2I4I5I3I4I6I7I4I5I7I8G0 G1 G2 G3出力行列と行列の乗算高い演算能力を発揮できるフィルタ(並び替え)cuDNN: 行列演算への変換も含め、全てを処理入力(並び替え)G0 G1 G2 G3F0 F1 F2 F3
LENET5LeNet5 [LeCun et al.,1998]OutputsFilter(Expanded)Inputs16100 * batch size150150
GOOGLENETGoogLeNet [Szegedy et al.,2014]OutputsFilter(Expanded)Inputs1923136 * batch size576576LENET5 GOOGLENET0.24 x Bs 346 x Bs1回の演算量(MFLOP)
cuDNN API畳み込み演算cudnnConvolutionForward()cudnnConvolutionBackward[Bias|Filter|Data]()活性化cudnnActivationForward()cudnnActivationBackward()プーリングcudnnPoolingForward()cudnnPoolingBackward()ソフトマックスcudnnSoftmaxForward()cudnnSoftmaxBackward()…
GPUはディープラーニングの全フェーズを加速cuBLASLeNet5 [LeCun et al.,1998]
性能測定結果AlexNet [A. Krizhevsky et al.,2012]2.5M18M23M43M0102030405016 Core CPU GTX Titan Titan BlackcuDNN v1Titan XcuDNN v2画像数(M)1日あたりの学習画像数 (Caffe)E5-2698 v3 @ 2.3GHz / 3.6GHz Turbo
cuDNN v3学習の高速化(主にMaxwell向け)2D畳み込み演算の高速化FFTコンボリューション対応より大きなモデル16ビット浮動小数点ストレージ9月リリース予定RC版がダウンロード可能 (登録必要)https://developer.nvidia.com/cuDNN0.0x0.5x1.0x1.5x2.0x2.5xAlexnet OverFeat VGGcuDNN v2  cuDNN v3学習性能: 最大2倍cuDNN 3 performance vs. previous version on Ubuntu 14.04 LTS withNVIDIA® GeForce® TITAN X and Intel® Core™ i7-4930K @ 3.40GHz
IdeaCodeTrainTestデータ・サイエンティストのワークフローIdeaCodeTrainTestR&D cycle
DIGITSGPUディープラーニングトレーニングシステム (Web UI)USERINTERFACEVisualizeLayersConfigureDNNProcessDataGPUGPU HW CloudGPU ClusterMulti-GPUTheanoTorchMonitorProgressCaffecuDNN, cuBLASCUDAデータサイエンティスト向けDNNモデルの設計学習状況・結果の可視化多数の学習の管理
DIGITS1. データ準備IdeaCodeTrainTest
DIGITS2. モデル設定IdeaCodeTrainTest
DIGITS3. 実行と監視IdeaCodeTrainTest
DIGITS4. 可視化IdeaCodeTrainTest
DIGITS: DEMO
DIGITSdeveloper.nvidia.com/digits github.com/NVIDIA/DIGITS
IdeaCodeTrainTestデータ・サイエンティストのワークフローDIGITScuBLAScuDNN
THANK YOU

Recommended

PDF
CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編
PDF
Tensorflow Liteの量子化アーキテクチャ
PPTX
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
PDF
組み込み関数(intrinsic)によるSIMD入門
PPTX
畳み込みニューラルネットワークの研究動向
PPTX
3次元計測とフィルタリング
PPTX
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
PDF
1076: CUDAデバッグ・プロファイリング入門
PDF
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
PDF
ARM CPUにおけるSIMDを用いた高速計算入門
PDF
モデルアーキテクチャ観点からのDeep Neural Network高速化
PDF
いまさら聞けないarmを使ったNEONの基礎と活用事例
PPTX
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
PPTX
[DL輪読会]MetaFormer is Actually What You Need for Vision
PDF
プログラムを高速化する話Ⅱ 〜GPGPU編〜
PDF
20180723 PFNの研究基盤 / PFN research system infrastructure
PDF
[Dl輪読会]dl hacks輪読
PPTX
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
PDF
画像生成・生成モデル メタサーベイ
PDF
ソフト高速化の専門家が教える!AI・IoTエッジデバイスの選び方
PDF
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
PDF
「FPGA 開発入門:FPGA を用いたエッジ AI の高速化手法を学ぶ」
PDF
tf,tf2完全理解
PDF
POMDP下での強化学習の基礎と応用
PPTX
近年のHierarchical Vision Transformer
PDF
Teslaにおけるコンピュータビジョン技術の調査 (2)
PPTX
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
PDF
いまさら聞けない!CUDA高速化入門
PDF
ディープラーニング最新動向と技術情報
PDF
NVIDIA ディープラーニング入門

More Related Content

PDF
CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編
PDF
Tensorflow Liteの量子化アーキテクチャ
PPTX
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
PDF
組み込み関数(intrinsic)によるSIMD入門
PPTX
畳み込みニューラルネットワークの研究動向
PPTX
3次元計測とフィルタリング
PPTX
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
PDF
1076: CUDAデバッグ・プロファイリング入門
CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編
Tensorflow Liteの量子化アーキテクチャ
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
組み込み関数(intrinsic)によるSIMD入門
畳み込みニューラルネットワークの研究動向
3次元計測とフィルタリング
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
1076: CUDAデバッグ・プロファイリング入門

What's hot

PDF
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
PDF
ARM CPUにおけるSIMDを用いた高速計算入門
PDF
モデルアーキテクチャ観点からのDeep Neural Network高速化
PDF
いまさら聞けないarmを使ったNEONの基礎と活用事例
PPTX
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
PPTX
[DL輪読会]MetaFormer is Actually What You Need for Vision
PDF
プログラムを高速化する話Ⅱ 〜GPGPU編〜
PDF
20180723 PFNの研究基盤 / PFN research system infrastructure
PDF
[Dl輪読会]dl hacks輪読
PPTX
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
PDF
画像生成・生成モデル メタサーベイ
PDF
ソフト高速化の専門家が教える!AI・IoTエッジデバイスの選び方
PDF
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
PDF
「FPGA 開発入門:FPGA を用いたエッジ AI の高速化手法を学ぶ」
PDF
tf,tf2完全理解
PDF
POMDP下での強化学習の基礎と応用
PPTX
近年のHierarchical Vision Transformer
PDF
Teslaにおけるコンピュータビジョン技術の調査 (2)
PPTX
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
PDF
いまさら聞けない!CUDA高速化入門
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
ARM CPUにおけるSIMDを用いた高速計算入門
モデルアーキテクチャ観点からのDeep Neural Network高速化
いまさら聞けないarmを使ったNEONの基礎と活用事例
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
[DL輪読会]MetaFormer is Actually What You Need for Vision
プログラムを高速化する話Ⅱ 〜GPGPU編〜
20180723 PFNの研究基盤 / PFN research system infrastructure
[Dl輪読会]dl hacks輪読
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
画像生成・生成モデル メタサーベイ
ソフト高速化の専門家が教える!AI・IoTエッジデバイスの選び方
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
「FPGA 開発入門:FPGA を用いたエッジ AI の高速化手法を学ぶ」
tf,tf2完全理解
POMDP下での強化学習の基礎と応用
近年のHierarchical Vision Transformer
Teslaにおけるコンピュータビジョン技術の調査 (2)
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
いまさら聞けない!CUDA高速化入門

Similar to なぜGPUはディープラーニングに向いているか

PDF
ディープラーニング最新動向と技術情報
PDF
NVIDIA ディープラーニング入門
PDF
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
PDF
20170421 tensor flowusergroup
PDF
20170726 py data.tokyo
PDF
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
PDF
FPGAX2016 ドキュンなFPGA
PDF
1010: エヌビディア GPU が加速するディープラーニング
PDF
MII conference177 nvidia
PPTX
2018/06/23 Sony"s deep learning software and the latest information
PDF
機械学習プロ生20151121
PDF
エヌビディアが加速するディープラーニング~進化するニューラルネットワークとその開発方法について~
PDF
NVIDIA Seminar ディープラーニングによる画像認識と応用事例
PDF
1072: アプリケーション開発を加速するCUDAライブラリ
PDF
20150803.山口大学講演
PDF
NVIDIA Deep Learning SDK を利用した画像認識
PDF
2012-03-08 MSS研究会
PDF
【A-1】AIを支えるGPUコンピューティングの今
PDF
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
PDF
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
ディープラーニング最新動向と技術情報
NVIDIA ディープラーニング入門
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
20170421 tensor flowusergroup
20170726 py data.tokyo
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
FPGAX2016 ドキュンなFPGA
1010: エヌビディア GPU が加速するディープラーニング
MII conference177 nvidia
2018/06/23 Sony"s deep learning software and the latest information
機械学習プロ生20151121
エヌビディアが加速するディープラーニング~進化するニューラルネットワークとその開発方法について~
NVIDIA Seminar ディープラーニングによる画像認識と応用事例
1072: アプリケーション開発を加速するCUDAライブラリ
20150803.山口大学講演
NVIDIA Deep Learning SDK を利用した画像認識
2012-03-08 MSS研究会
【A-1】AIを支えるGPUコンピューティングの今
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値化CNN on FPGAでGPUとガチンコバトル(公開版)

More from NVIDIA Japan

PDF
HPC 的に H100 は魅力的な GPU なのか?
PDF
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化
PDF
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情
PDF
20221021_JP5.0.2-Webinar-JP_Final.pdf
PDF
開発者が語る NVIDIA cuQuantum SDK
PDF
NVIDIA Modulus: Physics ML 開発のためのフレームワーク
PDF
NVIDIA HPC ソフトウエア斜め読み
PDF
HPC+AI ってよく聞くけど結局なんなの
PDF
Magnum IO GPUDirect Storage 最新情報
PDF
データ爆発時代のネットワークインフラ
PDF
Hopper アーキテクチャで、変わること、変わらないこと
PDF
GPU と PYTHON と、それから最近の NVIDIA
PDF
GTC November 2021 – テレコム関連アップデート サマリー
PDF
テレコムのビッグデータ解析 & AI サイバーセキュリティ
PDF
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~
PDF
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
PDF
2020年10月29日 Jetson活用によるAI教育
PDF
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育
PDF
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報
PDF
Jetson Xavier NX クラウドネイティブをエッジに
HPC 的に H100 は魅力的な GPU なのか?
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情
20221021_JP5.0.2-Webinar-JP_Final.pdf
開発者が語る NVIDIA cuQuantum SDK
NVIDIA Modulus: Physics ML 開発のためのフレームワーク
NVIDIA HPC ソフトウエア斜め読み
HPC+AI ってよく聞くけど結局なんなの
Magnum IO GPUDirect Storage 最新情報
データ爆発時代のネットワークインフラ
Hopper アーキテクチャで、変わること、変わらないこと
GPU と PYTHON と、それから最近の NVIDIA
GTC November 2021 – テレコム関連アップデート サマリー
テレコムのビッグデータ解析 & AI サイバーセキュリティ
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
2020年10月29日 Jetson活用によるAI教育
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報
Jetson Xavier NX クラウドネイティブをエッジに

なぜGPUはディープラーニングに向いているか


[8]ページ先頭

©2009-2025 Movatter.jp