Movatterモバイル変換


[0]ホーム

URL:


Uploaded byManaMurakami1
1,755 views

20170421 tensor flowusergroup

20170421 tensor flowusergroup

エヌビディア合同会社ディープラーニング ソリューションアーキテクト兼CUDAエンジニア 村上真奈TensorFlow User Group ハード部 #2TensorFlow+GPUディープラーニング
2自己紹介村上真奈(むらかみまな) / mmurakami@nvidia.com• CUDAエンジニア+ディープラーニングSA• ディープラーニング・CUDA技術サポートとか、いろいろ埼玉県さいたま市早稲田大学教育学部理学科数学⇒システム計画研究所⇒サムスン日本研究所⇒エヌビディア画像処理(主に静止画)、ソフトの最適化とか、プリクラとか放送機器とかテレビとか2010年頃に初めてCUDAにふれる(CUDA1.XXとかの時代)NVIDIAGPUComputingNVIDIAJapan@NVIDIAJapan
3AGENDAエヌビディアのGPUについてディープラーニングに最適なGPUは?TensorFlow+GPUでディープラーニングトレーニング
4エヌビディアのGPUについて
6NVIDIA GPU の歴史CUDA
72012 20142008 2010 2016 20184836120246072TeslaFermiKeplerMaxwellPascal混合精度演算倍精度演算3D メモリNVLinkVoltaGPU ロードマップSGEMM/W
8Tesla P100 SXM2 (CC 6.0)3584 CUDA CoresFP64: 5.3 TFFP32: 10.6 TFFP16: 21.2 TFINT8: …HBM24096 bit width16 GB732 GB/s
9Tesla P100 SXM2 (CC 6.0)3584 CUDA CoresFP64: 5.3 TFFP32: 10.6 TFFP16: 21.2 TFINT8: …HBM24096 bit width16 GB732 GB/sSMCUDAコア...
10Tesla P100 SXM2 (CC 6.0)3584 CUDA CoresFP64: 5.3 TFFP32: 10.6 TFFP16: 21.2 TFINT8: …HBM24096 bit width16 GB732 GB/s
11GPUアーキテクチャ概要PCI I/Fホスト接続インタフェースGiga Thread EngineSMに処理を割り振るスケジューラDRAM (384-bit, GDDR5)全SM、PCI I/Fからアクセス可能なメモリ (デバイスメモリ, フレームバッファ)L2 cache (1.5MB)全SMからアクセス可能なR/WキャッシュSM (Streaming Multiprocessor)「並列」プロセッサPascal GP100
12SM (streaming multiprocessor)▪ CUDA core▪ GPUスレッドはこの上で動作▪ Pascal: 64個▪ Other units▪ DP, LD/ST, SFU▪ Register File (65,536 x 32bit)▪ Shared Memory/L1 Cache(64KB)▪ Read-Only Cache(48KB)
13Register FileSchedulerDispatchSchedulerDispatchLoad/Store Units x 16Special Func Units x 4Interconnect Network64K ConfigurableCache/Shared MemUniform CacheCoreCoreCoreCoreCoreCoreCoreCoreCoreCoreCoreCoreCoreCoreCoreCoreCoreCoreCoreCoreCoreCoreCoreCoreCoreCoreCoreCoreCoreCoreCoreCoreInstruction CacheCompute Capability (CC)KeplerCC 3.5192 cores / SMXMaxwellCC 5.0128 cores / SMMFermiCC 2.032 cores / SMPascalCC 6.064 cores / SMMhttps://developer.nvidia.com/cuda-gpus
14ディープラーニングに最適なGPUは?
15ディープラーニングのアプローチ推論(インファレンス):犬猫蜜穴熊エラー犬猫アライグマ犬学習(トレーニング):モデルモデル
様々な構成のネットワーク16Alexnet(8層)VGG(19層)GoogleNet(22層)ILSVRC’12ILSVRC’14ILSVRC’14ILSVRC’15 ResNet(152層) deeper
17Image Recognition(Microsoft)認識精度向上のためモデルはよりディープに、データはより大きく強力な計算パワーが必要に2012AlexNet8 Layers1.4 GFLOP~16% Error152 Layers22.6 GFLOP~3.5% Error2015ResNet16XModel2014Deep Speech 180 GFLOP7,000 hrs of Data~8% Error465 GFLOP12,000 hrs of Data~5% Error2015Deep Speech 210XTraining OpsSpeech Recognition(Baidu)
様々な問題への応用18Semantic segmentaionGANMedical image analysis using 3D convolution
GPUがディープラーニングに向いている理由1. 汎用アクセラレータである。しかも計算が高速▪ 様々なアプリケーションを走らせる事が可能。しかも高速に計算する事が出来る。2. 開発時間が短い。最適化が簡単。▪ CUDA C/C++というC/C++の拡張言語で記述可能。学習コストも低く、簡単にアプリケーション開発が出来る。▪ 開発ツールが充実しており、プロファイラやデバッガを使えば、バグ修正や最適化が容易3. ハードウェアがディープラーニング向けに進化▪ NVLINKという高速なデータ転送インターコネクトをサポート(マルチGPUでの学習がより高速に)▪ GPU搭載メモリ量の増加(より複雑なネットワークを大きなバッチサイズで計算可能に)▪ その他いろいろ19
20K80 M40 M4P100(SXM2)P100(PCIE)P40 P4GPU 2x GK210 GM200 GM206 GP100 GP100 GP102 GP104CUDA core 4992(2496*2) 3072 1024 3584 3584 3840 2560PEAK FP64 (TFLOPs) 2.9 NA NA 5.3 4.7 NA NAPEAK FP32 (TFLOPs) 8.7 7 2.2 10.6 9.3 12 5.5PEAK FP16 (TFLOPs) NA NA NA 21.2 18.7 NA NAPEAK TIOPs NA NA NA NA NA 47 22Memory Size 2x 12GB GDDR5 24 GB GDDR5 4 GB GDDR5 16 GB HBM2 16/12 GB HBM2 24 GB GDDR5 8 GB GDDR5Memory BW 480 GB/s 288 GB/s 80 GB/s 732 GB/s 732/549 GB/s 346 GB/s 192 GB/sInterconnect PCIe Gen3 PCIe Gen3 PCIe Gen3NVLINK +PCIe Gen3PCIe Gen3 PCIe Gen3 PCIe Gen3ECC Internal + GDDR5 GDDR5 GDDR5 Internal + HBM2 Internal + HBM2 GDDR5 GDDR5Form Factor PCIE Dual Slot PCIE Dual Slot PCIE LP SXM2 PCIE Dual Slot PCIE Dual Slot PCIE LPPower 300 W 250 W 50-75 W 300 W 250 W 250 W 50-75 WTesla製品一覧たくさんあるが、どれを使えばよいのか?
21Tesla (Pascal以前)
22Tesla (Pascal世代)
23学習におすすめのGPUと推論におすすめのGPUがある!
24K80 M40 M4P100(SXM2)P100(PCIE)P40 P4GPU 2x GK210 GM200 GM206 GP100 GP100 GP102 GP104CUDA core 4992(2496*2) 3072 1024 3584 3584 3840 2560PEAK FP64 (TFLOPs) 2.9 NA NA 5.3 4.7 NA NAPEAK FP32 (TFLOPs) 8.7 7 2.2 10.6 9.3 12 5.5PEAK FP16 (TFLOPs) NA NA NA 21.2 18.7 NA NAPEAK TIOPs NA NA NA NA NA 47 22Memory Size 2x 12GB GDDR5 24 GB GDDR5 4 GB GDDR5 16 GB HBM2 16/12 GB HBM2 24 GB GDDR5 8 GB GDDR5Memory BW 480 GB/s 288 GB/s 80 GB/s 732 GB/s 732/549 GB/s 346 GB/s 192 GB/sInterconnect PCIe Gen3 PCIe Gen3 PCIe Gen3NVLINK +PCIe Gen3PCIe Gen3 PCIe Gen3 PCIe Gen3ECC Internal + GDDR5 GDDR5 GDDR5 Internal + HBM2 Internal + HBM2 GDDR5 GDDR5Form Factor PCIE Dual Slot PCIE Dual Slot PCIE LP SXM2 PCIE Dual Slot PCIE Dual Slot PCIE LPPower 300 W 250 W 50-75 W 300 W 250 W 250 W 50-75 WTesla製品一覧推論 推論学習 学習
25K80 M40 M4P100(SXM2)P100(PCIE)P40 P4GPU 2x GK210 GM200 GM206 GP100 GP100 GP102 GP104CUDA core 4992(2496*2) 3072 1024 3584 3584 3840 2560PEAK FP64 (TFLOPs) 2.9 NA NA 5.3 4.7 NA NAPEAK FP32 (TFLOPs) 8.7 7 2.2 10.6 9.3 12 5.5PEAK FP16 (TFLOPs) NA NA NA 21.2 18.7 NA NAPEAK TIOPs NA NA NA NA NA 47 22Memory Size 2x 12GB GDDR5 24 GB GDDR5 4 GB GDDR5 16 GB HBM2 16/12 GB HBM2 24 GB GDDR5 8 GB GDDR5Memory BW 480 GB/s 288 GB/s 80 GB/s 732 GB/s 732/549 GB/s 346 GB/s 192 GB/sInterconnect PCIe Gen3 PCIe Gen3 PCIe Gen3NVLINK +PCIe Gen3PCIe Gen3 PCIe Gen3 PCIe Gen3ECC Internal + GDDR5 GDDR5 GDDR5 Internal + HBM2 Internal + HBM2 GDDR5 GDDR5Form Factor PCIE Dual Slot PCIE Dual Slot PCIE LP SXM2 PCIE Dual Slot PCIE Dual Slot PCIE LPPower 300 W 250 W 50-75 W 300 W 250 W 250 W 50-75 WTesla製品一覧
262つのPASCAL
27
28
29
30
31
32
33
37TensorFlow+GPUでディープラーニングトレーニング
38ディープラーニング・フレームワークMocha.jlディープラーニング・フレームワークGPUで高速化されているディープラーニング・フレームワークが多数存在https://developer.nvidia.com/deep-learning-frameworks
39benchmark(DGX-1)• Two fully connected quads,connected at corners• 160GB/s per GPU bidirectional to Peers• Load/store access to Peer Memory• Full atomics to Peer GPUs• High speed copy engines for bulk datacopy• PCIe to/from CPUDGX-1Dual 20-core Intel® Xeon® E5-2698 v4 2.2 GHz8x Tesla GP100
40TensorFlowDeep Learning TrainingAn open-source software library for numericalcomputation using data flow graphs.VERSION1.0ACCELERATED FEATURESFull framework acceleratedSCALABILITYMulti-GPU and multi-nodeMore Informationhttps://www.tensorflow.org/TensorFlow Deep Learning FrameworkTraining on 8x P100 GPU Server vs 8 x K80 GPU Server-1.02.03.04.05.0Speedupvs.Serverwith8xK80AlexNet GoogleNet ResNet-50 ResNet-152 VGG162.5xAvg. Speedup3xAvg. SpeedupGPU Servers: Single Xeon E5-2690 v4@2.6GHz with GPUs configs as shownUbuntu 14.04.5, CUDA 8.0.42, cuDNN 6.0.5; NCCL 1.6.1, data set: ImageNet;batch sizes: AlexNet (128), GoogleNet (256), ResNet-50 (64), ResNet-152 (32), VGG-16 (32)Server with 8x P10016GB NVLinkServer with 8x P100PCIe 16GB
42マルチGPU学習の性能(今後の最適化)
43マルチGPU学習とは
44データ並列(同期型)w w wLayer 1 Layer 2Inputs Layer NLossFuncLossFuncGPU 1GPU 2“cat”Labels“monkey”w w wCopy Model, Assigne different data
45データ並列(同期型)wx ywx ywx yLayer 1“dog”Layer 2Inputs OutputsLayer NLossFunc“human”LossFuncGPU 1GPU 2“cat”Labels“monkey”error⊿y⊿x⊿y⊿x⊿y⊿w⊿w⊿wwx ywx ywx y⊿y⊿x⊿y⊿x⊿y⊿w⊿w⊿werrorForward & Backward Independently
46データ並列(同期型)wx ywx ywx yLayer 1“dog”Layer 2Inputs OutputsLayer NLossFunc“human”LossFuncGPU 1GPU 2“cat”Labels“monkey”error⊿y⊿x⊿y⊿x⊿y⊿w⊿w⊿wwx ywx ywx y⊿y⊿x⊿y⊿x⊿y⊿w⊿w⊿werrorCombine ⊿w over multi-GPU⊿w⊿w⊿w⊿w⊿w⊿wAll-reduceAll-reduceAll-reduce
47データ並列(同期型)wx ywx ywx yLayer 1“dog”Layer 2Inputs OutputsLayer NLossFunc“human”LossFuncGPU 1GPU 2“cat”Labels“monkey”error⊿y⊿x⊿y⊿x⊿y⊿w⊿w⊿wwx ywx ywx y⊿y⊿x⊿y⊿x⊿y⊿w⊿w⊿werrorUpdate Weights Independentlyw w ww w w
48マルチGPU学習のパフォーマンスNVIDIA DGX-1, Chainer 1.17.0 with multi-process patch0123456780 1 2 3 4 5 6 7 8Speed-upto1GPUNumber of GPUsAlexNet VGG-D ResNet[Batch size per GPU] AlexNet:768, VGG-D:32, ResNet:1200.511.522.51 2 4 8Relativetimeto1GPUNumber of GPUsTime per one batch (VGG-D)UpdateAllreduceBackwardForwardDGX-1’s NVLink is not well utilized.Chainer’s all-reduce implementationis naïve “gather and broadcat”.
49マルチGPU学習のパフォーマンス(NCCL使用なし) )NVIDIA DGX-1, Chainer 1.17.0 with multi-process patch024680 2 4 6 8Number of GPUsScalabilityResNet (152 layers)VGG-D (16 layers)AlexNet (7 layers)024680 2 4 6 8024680 2 4 6 8Gather & Bcast[Batch size per GPU] AlexNet:768, VGG-D:32, ResNet:12
50NCCL
51NCCL(NVIDIA Collective Collection Library)マルチGPU集合通信ライブラリ• 最新リリースはv1.2.3• https://github.com/NVIDIA/ncclall-gather, reduce, broadcast など標準的な集合通信の処理をバンド幅が出るように最適化シングルプロセスおよびマルチプロセスで使用する事が可能ディープラーニング SDK
52NCCL(NVIDIA Collective Collection Library)NCCLの集合通信処理
53NCCLの実装• 1 CPU and 4 GPUs (PCIe)Ring AlgorithmMost collectives amenable to bandwidth-optimalimplementation on rings, and many topologyies can beinterpreted as one or more rings [P. Patarasuk and X. Yuan]
54NCCLの実装• 2 CPUs and 8 GPUs (QPI and PCIe)Ring AlgorithmMost collectives amenable to bandwidth-optimalimplementation on rings, and many topologyies can beinterpreted as one or more rings [P. Patarasuk and X. Yuan]
55NCCL パフォーマンスBandwidth at different problem sizes (4 Maxwell GPUs)All-GatherAll-ReduceReduce-ScatterBroadcast
56Multi-GPU performance w/o NCCLNVIDIA DGX-1, Chainer 1.17.0 with multi-process patch024680 2 4 6 8Number of GPUsScalabilityResNet (152 layers)VGG-D (16 layers)AlexNet (7 layers)024680 2 4 6 8024680 2 4 6 8Gather & Bcast[Batch size per GPU] AlexNet:768, VGG-D:32, ResNet:12
57Multi-GPU performance with NCCLNVIDIA DGX-1, Chainer 1.17.0 with NCCL patch024680 2 4 6 8Number of GPUsScalabilityResNet (152 layers)VGG-D (16 layers)AlexNet (7 layers)024680 2 4 6 8024680 2 4 6 8NCCL (4-ring)NCCL (1-ring)Gather & Bcast[Batch size per GPU] AlexNet:768, VGG-D:32, ResNet:12
58Multi-GPU performance with NCCLNVIDIA DGX-1, Chainer 1.17.0 with NCCL patch00.511.522.5…G&BNCCL(1-ring)NCCL(4-ring)G&BNCCL(1-ring)NCCL(4-ring)G&BNCCL(1-ring)NCCL(4-ring)1 GPU 2 GPUs 4 GPUs 8 GPUsRelativetimeto1GPUTime per one batch (VGG-D)UpdateAllreduceBackwardForward
59nvidia-dockerGPU(CUDA)を使ったアプリケーションの環境を簡単に構築出来る。GPUの為のDockerツール。https://github.com/NVIDIA/nvidia-dockerTensorFlowのマルチGPU学習にお勧め
60nvidia-docker+コンテナでアプリケーションを起動GPU2 GPU3 GPU4 GPU6 GPU7NVIDIA CUDA DriverDockerエンジンGPU5GPU0 GPU1ホストPCGPU0 GPU1CUDA LibrariesDockerコンテナ1CUDA 7.5 Runtimeアプリケーション1GPU0 GPU1 GPU2CUDA LibrariesDockerコンテナ2CUDA 8.0 Runtimeアプリケーション2GPU0 GPU1 GPU2CUDA LibrariesDockerコンテナ3CUDA 7.0 Runtimeアプリケーション3
61明示的にどのGPUを使うか指定して起動sudo NV_GPU=‘1,2’ nvidia-docker run –rm gcr.io/tensorflow/tensorflow:1.0.1nvidia-dockerでコンテナの起動GPU 1と2を使用(GPU0は使用しない) dockerコンテナ名
THANK YOU!

Recommended

PDF
20170726 py data.tokyo
PDF
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正版)」
PDF
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正前 typoあり)」
PDF
NVIDIA TESLA V100・CUDA 9 のご紹介
PDF
Maxwell と Java CUDAプログラミング
PDF
CUDAプログラミング入門
PDF
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
PDF
OHS#2 GREでディープラーニング学習REST APIを作る
PDF
NVIDIA ディープラーニング入門
PDF
EnrootとPyxisで快適コンテナ生活
PDF
1070: CUDA プログラミング入門
PDF
20170518 eureka dli
PDF
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
PDF
PDF
20161121 open hyperscale#6
PDF
GTC 2017 基調講演からディープラーニング関連情報のご紹介
PDF
【関東GPGPU勉強会#4】GTX 1080でComputer Vision アルゴリズムを色々動かしてみる
PDF
OpenCLに触れてみよう
PDF
20160728 hyperscale #03
PDF
1072: アプリケーション開発を加速するCUDAライブラリ
PDF
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
PDF
Pythonによる並列プログラミング -GPGPUも-
PDF
プログラムを高速化する話Ⅱ 〜GPGPU編〜
PDF
1076: CUDAデバッグ・プロファイリング入門
PDF
Chainer で Tensor コア (fp16) を使いこなす
PPTX
Slurmのジョブスケジューリングと実装
PDF
20160902 hyperscale #04
PDF
Automatic Mixed Precision の紹介
PDF
【A-1】AIを支えるGPUコンピューティングの今
PDF
GPUディープラーニング最新情報

More Related Content

PDF
20170726 py data.tokyo
PDF
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正版)」
PDF
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正前 typoあり)」
PDF
NVIDIA TESLA V100・CUDA 9 のご紹介
PDF
Maxwell と Java CUDAプログラミング
PDF
CUDAプログラミング入門
PDF
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
PDF
OHS#2 GREでディープラーニング学習REST APIを作る
20170726 py data.tokyo
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正版)」
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正前 typoあり)」
NVIDIA TESLA V100・CUDA 9 のご紹介
Maxwell と Java CUDAプログラミング
CUDAプログラミング入門
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
OHS#2 GREでディープラーニング学習REST APIを作る

What's hot

PDF
NVIDIA ディープラーニング入門
PDF
EnrootとPyxisで快適コンテナ生活
PDF
1070: CUDA プログラミング入門
PDF
20170518 eureka dli
PDF
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
PDF
PDF
20161121 open hyperscale#6
PDF
GTC 2017 基調講演からディープラーニング関連情報のご紹介
PDF
【関東GPGPU勉強会#4】GTX 1080でComputer Vision アルゴリズムを色々動かしてみる
PDF
OpenCLに触れてみよう
PDF
20160728 hyperscale #03
PDF
1072: アプリケーション開発を加速するCUDAライブラリ
PDF
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
PDF
Pythonによる並列プログラミング -GPGPUも-
PDF
プログラムを高速化する話Ⅱ 〜GPGPU編〜
PDF
1076: CUDAデバッグ・プロファイリング入門
PDF
Chainer で Tensor コア (fp16) を使いこなす
PPTX
Slurmのジョブスケジューリングと実装
PDF
20160902 hyperscale #04
PDF
Automatic Mixed Precision の紹介
NVIDIA ディープラーニング入門
EnrootとPyxisで快適コンテナ生活
1070: CUDA プログラミング入門
20170518 eureka dli
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
20161121 open hyperscale#6
GTC 2017 基調講演からディープラーニング関連情報のご紹介
【関東GPGPU勉強会#4】GTX 1080でComputer Vision アルゴリズムを色々動かしてみる
OpenCLに触れてみよう
20160728 hyperscale #03
1072: アプリケーション開発を加速するCUDAライブラリ
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
Pythonによる並列プログラミング -GPGPUも-
プログラムを高速化する話Ⅱ 〜GPGPU編〜
1076: CUDAデバッグ・プロファイリング入門
Chainer で Tensor コア (fp16) を使いこなす
Slurmのジョブスケジューリングと実装
20160902 hyperscale #04
Automatic Mixed Precision の紹介

Similar to 20170421 tensor flowusergroup

PDF
【A-1】AIを支えるGPUコンピューティングの今
PDF
GPUディープラーニング最新情報
PDF
MII conference177 nvidia
PDF
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
PDF
IEEE ITSS Nagoya Chapter NVIDIA
PDF
NVIDIA GPU 技術最新情報
PDF
NVIDIA deep learning最新情報in沖縄
PDF
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ
PPTX
2012 1203-researchers-cafe
PDF
GTC 2020 発表内容まとめ
PDF
GTC 2020 発表内容まとめ
DOC
GPGPUによるパーソナルスーパーコンピュータの可能性
PDF
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
PDF
なぜGPUはディープラーニングに向いているか
PDF
【旧版】2009/12/10 GPUコンピューティングの現状とスーパーコンピューティングの未来
PDF
2009/12/10 GPUコンピューティングの現状とスーパーコンピューティングの未来
PDF
SC16 NVIDIA NEWS
PDF
2016Nov22 Sc16 nvidia
PDF
NVIDIA Deep Learning SDK を利用した画像認識
PDF
1010: エヌビディア GPU が加速するディープラーニング
【A-1】AIを支えるGPUコンピューティングの今
GPUディープラーニング最新情報
MII conference177 nvidia
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
IEEE ITSS Nagoya Chapter NVIDIA
NVIDIA GPU 技術最新情報
NVIDIA deep learning最新情報in沖縄
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ
2012 1203-researchers-cafe
GTC 2020 発表内容まとめ
GTC 2020 発表内容まとめ
GPGPUによるパーソナルスーパーコンピュータの可能性
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
なぜGPUはディープラーニングに向いているか
【旧版】2009/12/10 GPUコンピューティングの現状とスーパーコンピューティングの未来
2009/12/10 GPUコンピューティングの現状とスーパーコンピューティングの未来
SC16 NVIDIA NEWS
2016Nov22 Sc16 nvidia
NVIDIA Deep Learning SDK を利用した画像認識
1010: エヌビディア GPU が加速するディープラーニング

20170421 tensor flowusergroup


[8]ページ先頭

©2009-2025 Movatter.jp