Movatterモバイル変換


[0]ホーム

URL:


PDF, PPTX2,195 views

続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2

PFN は、「現実世界を計算可能にする」を Vision として,膨大な計算量を必要とするシミュレーションや深層学習などの計算ワークロードを実行するためのオンプレ ML 基盤を持っています。この発表では、「オンプレクラスタの概要」と最近のトピックとして「新しく構築した「MN-2b」」、「Pod のリソース要求量の最適化を助けるしくみ」、「Kubernetes クラスタのアップグレード」についてお話します。本イベント「オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜」では、オンプレミスの Kubernetes クラスタ上に構築された機械学習基盤を持つ PFN とヤフーのエンジニアが自社での取り組みについて語り尽くします!イベントサイト: https://ml-kubernetes.connpass.com/event/255797/

Download as PDF, PPTX
続・PFNのオンプレML基盤の取り組み2022/08/29 オンプレML基盤 on Kubernetes #2Hidehito Yabuuchi
自己紹介薮内 秀仁 (Hidehito Yabuuchi)● 2020/04 入社● Cluster Services チーム○ オンプレクラスタをはじめとした社内計算基盤の開発・運用● 最近の仕事○ Pod のリソース要求量の最適化を助 るし み○ 社内 CI 基盤の刷新2
目次● オンプレクラスタの概要○ PFN オンプレクラスタを選ぶ理由○ オンプレクラスタ・ストレージクラスタ○ 社内計算基盤 目指す姿● 最近のトピック○ 新し 構築したクラスタ「MN-2b」○ Pod のリソース要求量の最適化を助 るし み○ Kubernetes クラスタのアップグレード3
オンプレクラスタの概要4
PFNがオンプレクラスタを選ぶ理由● ビジョン「現実世界を計算可能にする」○ シミュレーションや深層学習は膨大な計算リソースを必要とする○ 計算力は競争力の源泉であり、大量の計算機 必要● 大規模な計算を息をするようにしたい○ 16 GPUs, 32 GPUs, ... な分散学習を回したい○ 1 GPU な学習をパラメータを変えて大量に回したい / NAS をしたい○ 1,000 GPU年超でデータセットを作成した例:PFN blog: 材料探索のためのユニバーサルなニューラルネットワークポテンシャル● 計算基盤全てをコントロールしたい○ ノード内・ノード間通信、ストレージの全ての最適化 高速な学習には必要● 上から下まで(ハードもソフトも人も)保有することの重要性○ (設計・調達 らアルゴリズムまで)様々な技術バックグラウンドを持つメンバー 集結する とで新しいものを生み出してい たい
PFNのオンプレクラスタ6MN-2a MN-2bMN-3New!2022/07 ~PFN's SupercomputersIcon pack by Icons8 - https://icons8.com
7Icon pack by Icons8 - https://icons8.comMN-2b (A30)42 nodes(252 GPUs)A30 (24G)PCIe x 6100GbE x 2RoCEv2with SR-IOVMN-2b (A100)42 nodes(168 GPUs)A100 (80G)SXM4 x 4100GbE x 2RoCEv2with SR-IOVMN-JMN-2a128 nodes(1024 GPUs)V100 (16 / 32 G)SXM2 x 8100GbE x 4RoCEv2with SR-IOVMN-348 nodes(192 MN-Cores)MN-Core x 4100GbE x 2MN-CoreDirectConnect80 CPU Cores128 CPU Cores48 CPU Cores36 CPU CoresPFNのオンプレKubernetesクラスタNew!2022/07 ~New!2022/07 ~DDR4 384GB DDR4 384GB DDR4 1024 GB DDR4 512 GB
PFNのストレージクラスタ8トータル約 8.4 PB(論理容量、拡大中)FileSystemMediumMN-J ストレージNFSHDDNVMeSSDHDFS Apache OzoneIcon pack by Icons8 - https://icons8.com
社内計算基盤が目指す姿● 多様なリテラシのユーザが使いやすいこと○ 「入社初日 らクラスタで大規模に実験をして成果を出せる」● リソースを効率的かつ公平に利用できること○ 効率的:マルチテナント、スケジューリング、プロファイリング○ 公平性:各ユーザ 利用した量に基づ プリエンプションなど● 信頼性・運用効率○ 自動プロビジョニング○ 健全性の自動診断・保守省力化9取り組みの内容は オンプレML基盤 on Kubernetes #1 を参照ください!
最近のトピック10● 新し 構築したクラスタ「MN-2b」● Pod のリソース要求量の最適化を助 るし み● Kubernetes クラスタのアップグレード
新しく構築したクラスタ「MN-2b」2022/07 より稼働中最新世代の GPU (A100, A30), CPU と大 めの主記憶を搭載11MN-2b (A30)42 nodes(252 GPUs)A30 (24G)PCIe x 6100GbE x 2RoCEv2with SR-IOVMN-2b (A100)42 nodes(168 GPUs)A100 (80G)SXM4 x 4100GbE x 2RoCEv2with SR-IOV80 CPU Cores128 CPU CoresDDR4 1024 GB DDR4 512 GB多様なワークロードに対応Icon pack by Icons8 - https://icons8.com
使いたいGPUの種類を簡単に指定できるしくみ● クラスタ内の GPU の種類が増えた○ Kubernetes 的にはすべて nvidia.com/gpu● 課題● Node selector で意図通りの種類の GPU を指定するのは難しい○ 「V100なら何でも」「A30 いい」「VRAM 32 GB あれば何でも」● 各種 GPU の需要を知りたい○ ユーザ どう GPU 種を選んだ 意図を集計したい12
使いたいGPUの種類を簡単に指定できるしくみ● 解決策:gpu-v100-32gb のように指定できるように○ gpu-<GPU name>-<minimum VRAM amount>○ Admission webhook で node selector に変換● 結果○ ユーザ 意図通りに GPU を選べるように○ 管理者 ユーザの意図を反映した需要を把握で るように13* サンプルデータ
Pod のリソース要求量の最適化を助けるしくみオンプレクラスタの容量は限られている → 無駄なく使いたい● アプローチ 1: スケジューラで pod をうま 詰め込む● アプローチ 2: 各 pod が必要十分な量だけリソースを要求する14�� ��Pod 使用中要求した 不使用* サンプルデータ課題:Pod の最適なリソース要求量を決めるのは難しい / 面倒
Pod のリソース要求量の最適化を助けるしくみ解決策:適切なリソース要求量を自動で提案する15Icon pack by Icons8 - https://icons8.comVerticalPodAutoscalerDeploymentVPArecommenderoursystemkubernetes/autoscalervertical-pod-autoscaler2. watchresource usage3. write appropriateresource1. createtargetRef 4. watch
Kubernetes クラスタのアップグレード● PFN では minor version 一つ遅れで Kubernetes をアップグレード○ 1.24 への更新を準備中● Cluster API でクラスタのライフサイクルを管理● MAAS と Ansible でベアメタルマシンをプロビジョニング16
Kubernetes クラスタのアップグレード17eval MN-JProvision nodes with AnsibleCluster APIMAAS provider(in-house)+Custom OS imageEditmanifestsIcon pack by Icons8 - https://icons8.com
Kubernetes 1.24 といえば:dockershim の削除● PFN では 2021/07 に containerd に移行済み○ レジストリを Google Artifact Registry に移行したためキャッシュサーバへのミラー機能 必要になった● キャッシュサーバの必要性○ クラウド らイメージを大量に pull するとコスト 高い○ ML 向 のイメージは大 い・多様○ ノード 多 ローカルキャッシュ 効 に い● 95% ほどキャッシュヒット18
コンテナイメージのキャッシュ19Google ArtifactRegistryPull/push-throughcacheInternetInternal networkIcon pack by Icons8 - https://icons8.comキャッシュサーバから pullキャッシュサーバにpush もできるGAR にも write-through
We're Hiring!機械学習プラットフォームエンジニア (Infrastructure)● こんな環境にワクワクする方を募集しています!○ 日進月歩で進化している機械学習にフォーカスした計算技術を低レイヤーから高レイヤーまでトータルに吸収できる○ 大規模機械学習クラスタの開発・運用が経験できる○ Kubernetesを始めとするOSSコミュニティでも活躍できるチャンスがある○ HPCとCloud Nativeの境界領域という今後ますます重要になる分野の経験ができる○ 多様な要求・ユーザーリテラシをサポートするプラットフォーム設計・実装を経験できる20
We're Hiring!● カジュアル面談希望の連絡お待ちしています(DMでもメンションでもお気軽に)○ 大村: @everpeace● 資料○ PFN のオンプレML基盤の取り組み (オンプレML基盤 on Kubernetes #1 〜PFN、ヤフー〜)○ PFNのML/DL基盤を支えるKubernetesに る自動化 (DevOpsDays Tokyo 2021)○ How to Schedule Machine Learning Workloads Nicely In Kubernetes (CNDT 2020)○ Kubernetesによる機械学習基盤への挑戦 (JAPANCONTAINERDAYS V18.12)○ Preferred Networksの機械学習クラスタを支える技術 (JulyTech Festa 2018 基調講演)○ (採用ページには の他にも載せてあります)21
パネルディスカッション22
23GPU のスケジューリングや断片化にどんな対策をしてる?
GPU のスケジューリング&断片化対策● GPU NodeにCPU Podをスケジューリング● 断片化対策○ 独自のNodeScoreプラグイン(Lua)■ Pod/Node種別による柔軟なスコアリング○ 同一PriorityによるPreemption24
GPUノードにCPU Podをスケジューリング25CPUGPUGPU PodsCPUが無駄��CPUGPUGPU PodsCPUPods��CPUGPUCPUPodsCPU詰めすぎてGPU使えない��CPUGPUCPUPodsCPU,GPU両方活用できてるPreemptGPU Pods��☠GPUPodsCPU,GPU両方活用できてるCPU PodをGPUノードにスケジュールしてCPUを有効利用CPU Podの優先度を下 てGPU Podを邪魔しない
GPU断片化: 独自のNodeScoreプラグイン(Lua)Luaで様々なヒューリスティックを導入可26…888 GPU Pods右 ら詰める(意訳)(で る ためるように)<8 GPU PodsMostRequested(Greedy BinPacking)<8 GPU, 8 GPUのScoreが別(8GPUは主に分散学習向け)Resource Sharing Pod/Node用のScore(主にInteractive環境向け)2 4 1 2Resource Sharing Podは要求量をεにしているのでPod数だ でNodeをScoring
Luaでロジック追加ってどうなの?● 👍メリット○ ちょっとしたノード追加や方針変更での重み変更などは楽○ 独自Pluginじゃな ても なり柔軟なPolicy 実装可能● 👎デメリット○ 結局e2eテストを行わないと怖 て本番投入は無理■ コードで書 るので、柔軟だ テストしないと不安○ e2eテストを行うのはgoをビルドするのよりも時間 る■ すでにスケジューラを拡張している場合、環境 ある● 📜背景○ resource weightedなMostAllocated Plugin ない時代に開発 れてそれを引 継いでいる27
GPU断片化: 同一PriorityによるPreemption(Deschedulingに似ている)28Preempted and Defrag-ed● 先勝ちで占有 れないように● 断片化したPodをPreemption対象にする とで断片化も防止
29どんなk8sコントローラ/Operator を開発してる?
どんなk8sコントローラ/Operator を開発してる?● pfnet-research/node-operation-controller(OSS)○ NodeのConditionに応じて、復旧オペレーションを行う● node-metadata-taint-controller○ CRDの定義に応じて、label/taintをnodeに付与する○ NodeのConditionに応じて、taintを付与する● node-condition-controller○ NodeのConditionに応じて別のNode Condtionを設定する○ 復旧オペレーションの実行条件を細 指定で るようになる● job-controller○ 分散学習を定義するCRDに応じてPodを作成○ MPI(Podをまたいでプロセスを連携 せる)とNCCL(GPU間通信ライブラリ)をいい んじに設定して使える30
job-controller: MPIにおけるプロセス起動31launcher node$ mpiexec ./exechost1host2host3hostfilerank=0 (host1 node)$ ./execrank=1 (host2 node)$ ./execrank=2 (host3 node)$ ./execssh host2./execssh host1./execssh host3./execMPI_Comm_rank() -> 0
MPI_Comm_size() -> 3
MPI_Comm_rank() -> 1
MPI_Comm_size() -> 3
MPI_Comm_rank() -> 2
MPI_Comm_size() -> 3

job-controllerにおける起動とクリーンアップ32launcher pod$ mpiexec ./execworker0worker1worker2hostfilerank=0 (worker0 pod)$ ./execrank=1 (worker1 pod)$ ./execrank=2 (worker2 pod)$ ./execkubectl exec./exec./execkubectl exec./execConfigMap生 てる ?生 てる ?生 てる ?kind: MPIJob# 死活監視status: Running
kubeflowのMPI operatorとの比較● CRDとしては結構似ている○ launcher と worker についてそれぞれPodTemplateSpecを書● PFNの環境に合わせるための機能 色々ある○ Gang Scheduling のサポート○ masterless-mpi(launcher pod と worker #0のpod 一致する)■ preemption のハンドリング しやすい■ 非MPIモードと組み合わせたジョブスクリプトを書 やすい○ initContainerの自動挿入機能■ Multi-Rail(NIC 複数ある)環境向 に設定ファイル生成■ 「必要なPod 全て起動する」までの待ち合わせ■ などなどた ん33
34最近どんな障害あった?
● Pod 起動直後に名前解決に失敗して死ぬ!なぜ!○ 名前解決以外にもあらゆるクラスタ内のサービスに起動直後だ アクセスで ない(kube-apiserver も含む)● 失敗しないと もあれば、起動後数十秒ダメな ともある( そら )Pod 数 多す る と 原因で、CNI プラグイン kubelet kube-proxy で問題 起 ているPod が起動直後に名前解決に失敗して死ぬ 😱 (1/3)35
pods/LIST に7秒以上も っちゃってる😇Pod が起動直後に名前解決に失敗して死ぬ 😱 (2/3)36
エラーや完了済みの Pods を削除する とで解消 れる とを確認。● 根本対策: システムコンポーネントのチューニングやエラーや終了したPods の自動掃除を検討(まだ取り組めてない)● 対処療法: ネットワークの疎通 確認で るまでスリープするコンテナを Init container として自動的に挿入Pod が起動直後に名前解決に失敗して死ぬ 😱 (3/3)37スリープ どの らいで終了した をログで観測 (10分の1秒)
最近あった障害 - CIDRNotAvailable イベント● API Server 不調になった原因を探っていたら・・・● イベント 多いの 原因 も? → あまり見ないイベント 出てる!?● CIDRNotAvailable !?!? なんだっ れ● 最近、何 変わったっ ・・・もし して?38
CIDRNotAvailable: 原因● 最近追加したノードの一部だ で発生● 250台に台数を減らすと発生しない● 256に境目 ありそうな値では?● 結果分 った と● クラスタ全体のCIDR: /16● ノードのCIDRブロックサイズ: /24● ブロック数は8ビット分 😇39MN-2Bでノード 増えた
最近あった障害 - 大量のOutOfCpu イベント● 起 た と○ 大量のPod OutOfCpuイベントを発行しFailし続 た○ ユーザ らは確率的にPodの実行 失敗するとの多数の問い合わせ○ ノードによらず発生・再起動などでも回復せず● 当時の様子○ 数分に一回スケジュール直後にFail状態になるPod 多数○ まずい40
大量のOutOfCpuの原因と対策● そもそもOutOfCpuイベントっていつ起 る?○ スケジュール済みPodのCPU要求量 > kubeletの認識するCPU量● 前日に1.22にUpgradeしたk8s(kubelet)のバグだった○ Pod終了と新規Podのrace conditionを疑い、手元で再現に成功○ k8s apiサーバへのPod終了報告 、kubelet内の状態更新より先になっていた● upstreamへissue化/PR化を行った(#106884, #106955)○ 発生 ら一週間強で社内はパッチで凌 とに成功○ ※Upstreamは別PRで修正 れました41
42どんなチーム構成で取り組んでいるのか教えて!
クラスタを取り巻く組織43MN-CoreClusterServicesClusterPlanningMN-Core企画&設計ASIC設計コンパイラ・ランタイム計算基盤サービス化計算基盤Project A利用・フィードバックファシリテーションProject BProject Z…利用・フィードバックファシリテーション利用・フィードバックファシリテーション連携連携連携
● Product Management/Support○ GitHub Issuesによる要望収集 ベース○ Cluster Solution Architectによる吸い上○ Documentは基本Google Docs● 開発・運用○ テーマ とのSIGを構成して所属(3ヶ月サイクル)○ それぞれのSIGで優先度を決定して活動○ 全体SyncはWeeklyCluster Servicesチーム内ではどう取り組んでいるか?44ユーザ直接要望ProjectSAによる吸上SAによる強力サポートProvisioning Monitoring Usability Resource Efficiency HardeningSIGs …※図はイメージです極端な所属の偏りはEngineering Managerによる調整
We're Hiring!機械学習プラットフォームエンジニア (Infrastructure)● こんな環境にワクワクする方を募集しています!○ 日進月歩で進化している機械学習にフォーカスした計算技術を低レイヤーから高レイヤーまでトータルに吸収できる○ 大規模機械学習クラスタの開発・運用が経験できる○ Kubernetesを始めとするOSSコミュニティでも活躍できるチャンスがある○ HPCとCloud Nativeの境界領域という今後ますます重要になる分野の経験ができる○ 多様な要求・ユーザーリテラシをサポートするプラットフォーム設計・実装を経験できる45
We're Hiring!● カジュアル面談希望の連絡お待ちしています(DMでもメンションでもお気軽に)○ 大村: @everpeace● 資料○ PFN のオンプレML基盤の取り組み (オンプレML基盤 on Kubernetes #1 〜PFN、ヤフー〜)○ PFNのML/DL基盤を支えるKubernetesに る自動化 (DevOpsDays Tokyo 2021)○ How to Schedule Machine Learning Workloads Nicely In Kubernetes (CNDT 2020)○ Kubernetesによる機械学習基盤への挑戦 (JAPANCONTAINERDAYS V18.12)○ Preferred Networksの機械学習クラスタを支える技術 (JulyTech Festa 2018 基調講演)○ (採用ページには の他にも載せてあります)46

Recommended

PDF
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PDF
PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021
PDF
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
PDF
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
PPTX
MLOps入門
PPTX
Slurmのジョブスケジューリングと実装
PDF
Apache Arrow - データ処理ツールの次世代プラットフォーム
PDF
AWSではじめるMLOps
PDF
Kubernetesによる機械学習基盤への挑戦
PDF
20180729 Preferred Networksの機械学習クラスタを支える技術
PDF
How to Schedule Machine Learning Workloads Nicely In Kubernetes #CNDT2020 / C...
PDF
ゼロから作るKubernetesによるJupyter as a Service ー Kubernetes Meetup Tokyo #43
PPTX
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
PDF
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
PDF
Singularityで分散深層学習
PDF
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
PDF
PGOを用いたPostgreSQL on Kubernetes入門(PostgreSQL Conference Japan 2022 発表資料)
PPTX
MLOpsはバズワード
PDF
爆速クエリエンジン”Presto”を使いたくなる話
PDF
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
PDF
Dapr × Kubernetes ではじめるポータブルなマイクロサービス(CloudNative Days Tokyo 2020講演資料)
PDF
分散学習のあれこれ~データパラレルからモデルパラレルまで~
PDF
Kubernetes 基盤における非機能試験の deepdive(Kubernetes Novice Tokyo #17 発表資料)
PDF
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
PDF
Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)
PDF
インフラCICDの勘所
PDF
Kubernetes meetup-tokyo-13-customizing-kubernetes-for-ml-cluster
PPTX
深層学習インフラ、借りるべきか?買うべきか?
PPTX
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話

More Related Content

PDF
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PDF
PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021
PDF
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
PDF
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
PPTX
MLOps入門
PPTX
Slurmのジョブスケジューリングと実装
PDF
Apache Arrow - データ処理ツールの次世代プラットフォーム
PDF
AWSではじめるMLOps
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
MLOps入門
Slurmのジョブスケジューリングと実装
Apache Arrow - データ処理ツールの次世代プラットフォーム
AWSではじめるMLOps

What's hot

PDF
Kubernetesによる機械学習基盤への挑戦
PDF
20180729 Preferred Networksの機械学習クラスタを支える技術
PDF
How to Schedule Machine Learning Workloads Nicely In Kubernetes #CNDT2020 / C...
PDF
ゼロから作るKubernetesによるJupyter as a Service ー Kubernetes Meetup Tokyo #43
PPTX
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
PDF
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
PDF
Singularityで分散深層学習
PDF
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
PDF
PGOを用いたPostgreSQL on Kubernetes入門(PostgreSQL Conference Japan 2022 発表資料)
PPTX
MLOpsはバズワード
PDF
爆速クエリエンジン”Presto”を使いたくなる話
PDF
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
PDF
Dapr × Kubernetes ではじめるポータブルなマイクロサービス(CloudNative Days Tokyo 2020講演資料)
PDF
分散学習のあれこれ~データパラレルからモデルパラレルまで~
PDF
Kubernetes 基盤における非機能試験の deepdive(Kubernetes Novice Tokyo #17 発表資料)
PDF
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
PDF
Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)
PDF
インフラCICDの勘所
PDF
Kubernetes meetup-tokyo-13-customizing-kubernetes-for-ml-cluster
Kubernetesによる機械学習基盤への挑戦
20180729 Preferred Networksの機械学習クラスタを支える技術
How to Schedule Machine Learning Workloads Nicely In Kubernetes #CNDT2020 / C...
ゼロから作るKubernetesによるJupyter as a Service ー Kubernetes Meetup Tokyo #43
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
Singularityで分散深層学習
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
PGOを用いたPostgreSQL on Kubernetes入門(PostgreSQL Conference Japan 2022 発表資料)
MLOpsはバズワード
爆速クエリエンジン”Presto”を使いたくなる話
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
Dapr × Kubernetes ではじめるポータブルなマイクロサービス(CloudNative Days Tokyo 2020講演資料)
分散学習のあれこれ~データパラレルからモデルパラレルまで~
Kubernetes 基盤における非機能試験の deepdive(Kubernetes Novice Tokyo #17 発表資料)
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)
インフラCICDの勘所
Kubernetes meetup-tokyo-13-customizing-kubernetes-for-ml-cluster

Similar to 続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2

PPTX
深層学習インフラ、借りるべきか?買うべきか?
PPTX
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話
PDF
KubeCon 2021 NA Recap - Scheduler拡張事例最前線 / Kubernetes Meetup Tokyo #47 / #k8sjp
PDF
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
PDF
20180227_最先端のディープラーニング 研究開発を支えるGPU計算機基盤 「MN-1」のご紹介
PDF
Hadoopのシステム設計・運用のポイント
PDF
Kuberflow Kubernetes上の機械学習プラットフォーム
PDF
KueCon 2020 NA Recap - Building a Global Supercomputer with Virtual Kubelet /...
PDF
Introduction to argo
PDF
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
PDF
Introduction to Chainer (LL Ring Recursive)
PDF
Chainer on Azure 2 年の歴史
PPTX
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
PDF
[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用
PDF
Kubernetesのワーカーノードを自動修復するために必要だったこと
PDF
研究を加速するChainerファミリー
PDF
GPUを考慮したMapReduceのタスクスケジューリング
PDF
JAWSUG名古屋 AWS勉強会 20180309
PDF
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
PDF
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
深層学習インフラ、借りるべきか?買うべきか?
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話
KubeCon 2021 NA Recap - Scheduler拡張事例最前線 / Kubernetes Meetup Tokyo #47 / #k8sjp
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
20180227_最先端のディープラーニング 研究開発を支えるGPU計算機基盤 「MN-1」のご紹介
Hadoopのシステム設計・運用のポイント
Kuberflow Kubernetes上の機械学習プラットフォーム
KueCon 2020 NA Recap - Building a Global Supercomputer with Virtual Kubelet /...
Introduction to argo
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
Introduction to Chainer (LL Ring Recursive)
Chainer on Azure 2 年の歴史
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用
Kubernetesのワーカーノードを自動修復するために必要だったこと
研究を加速するChainerファミリー
GPUを考慮したMapReduceのタスクスケジューリング
JAWSUG名古屋 AWS勉強会 20180309
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会

More from Preferred Networks

PDF
PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
PDF
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
PDF
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
PDF
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
PDF
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
PDF
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
PDF
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
PDF
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
PDF
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
PPTX
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PDF
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
PDF
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
PDF
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
PDF
Topology Managerについて / Kubernetes Meetup Tokyo 50
PDF
PFN Summer Internship 2021 / Kohei Shinohara: Charge Transfer Modeling in Neu...
PDF
わかる!metadata.managedFields / Kubernetes Meetup Tokyo 48
PDF
Playgram開発秘話_2022年1月プログラミングシンポジウム招待講演_西澤勇輝、岡本雄太
PDF
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
PDF
MN-3, MN-Core and HPL - SC21 Green500 BOF
PDF
PFP:材料探索のための汎用Neural Network Potential - 2021/10/4 QCMSR + DLAP共催
PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
Topology Managerについて / Kubernetes Meetup Tokyo 50
PFN Summer Internship 2021 / Kohei Shinohara: Charge Transfer Modeling in Neu...
わかる!metadata.managedFields / Kubernetes Meetup Tokyo 48
Playgram開発秘話_2022年1月プログラミングシンポジウム招待講演_西澤勇輝、岡本雄太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
MN-3, MN-Core and HPL - SC21 Green500 BOF
PFP:材料探索のための汎用Neural Network Potential - 2021/10/4 QCMSR + DLAP共催

続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2


[8]ページ先頭

©2009-2025 Movatter.jp