Movatterモバイル変換


[0]ホーム

URL:


その Pod 突然落ちても大丈夫ですか!?(OCHaCafe5 #5 実験!カオスエンジニアリング 発表資料)

その Pod 突然落ちても大丈夫ですか!?(OCHaCafe5 #5 実験!カオスエンジニアリング 発表資料)2022年5月11日(水)NTTデータITSP事業本部 C&P事業部逆井 啓佑

Embed presentation

- 2022/05/11- NTT DATA- Keisuke SAKASAI @k6s4i53rx©︎ 2022 NTT DATA CorporationOracle Cloud Hangout Cafe #5LT: その Pod 突然落ちても大丈夫ですか
- 2022/05/11 Oracle Cloud Hangout Cafe - ©︎ 2022 NTT DATA CorporationWho am I- 2022/05/11 Oracle Cloud Hangout Cafe -逆 井 啓 佑さかさ い©︎ 2022 NTT DATA CorporationCompany:- NTT DATA CorporationWork:- 決済システムの Product Owner と 非機能 Test (約半年間)- Kubernetes を始めとするモダンな技術スタック...Description:- 先日、業務内の GKE Upgrade 時に勉強した、「Pod の正常終了」について簡単にまとめて、LT しようと思います。k8s 超基本!!なお話になります...が大事なTopicです逆 井 啓 佑
- 2022/05/11 Oracle Cloud Hangout Cafe - ©︎ 2022 NTT DATA Corporation商用環境でバンバン Request が飛んできている Pod、突然、落ちても大丈夫ですか??Introdaction
- 2022/05/11 Oracle Cloud Hangout Cafe - ©︎ 2022 NTT DATA Corporation「突然」とは言わないまでも...例えば、GKE Upgrade の際には、Pod を落とす 場合もあります。※ Upgrade 戦略によるIntrodactionOld New❶ 新 Node 作成❷ 新 Node に Pod 作成❸ 旧 Node の Pod 落とす❹ 旧 Node 削除
- 2022/05/11 Oracle Cloud Hangout Cafe - ©︎ 2022 NTT DATA Corporation「突然」とは言わないまでも...例えば、GKE Upgrade の際には、Pod を落とす 場合もあります。※ Upgrade 戦略によるIntrodactionOld New❶ 新 Node 作成❷ 新 Node に Pod 作成❸ 旧 Node の Pod 落とす❹ 旧 Node 削除落とした Pod が決済リクエストを処理中だった場合、そのリクエストはどうなるのか?正常に決済は終了できるのか?上記ついて、「Pod が落ちる」を踏み込んで理解することで考えます。
- 2022/05/11 Oracle Cloud Hangout Cafe - ©︎ 2022 NTT DATA CorporationPod が落ちるPod が落ちる際の挙動Pod の Shutdownプロセス実行❶Service から Pod へのルーティング削除ReplicaSet やDeployment管理下からの除外❷ ❸replicas=3New!!これら3つの処理が、非同期に実行される。ここで、❷ のルーティング削除 => ❶ の Shutdown プロセス実施といった 順序制御はない 。preStop SIGTERMSIGKILL削除開始強制終了.terminationGracePeriodSecondsデフォルト: 30 秒preStop は最期にコンテナで実行される処理Pod に .deletionTimestamp が設定
- 2022/05/11 Oracle Cloud Hangout Cafe - ©︎ 2022 NTT DATA CorporationPod が落ちる際の挙動PodStatusRunning TerminatingPod削除開始deletionTimestamp設定コンテナ強制終了(設定されていたら)preStop 処理(preStop が終わったら)SIGTERM 処理terminationGracePeriodSeconds経過後SIGKILL 処理Service からPod へのルーティングが除外.terminationGracePeriodSecondsデフォルト: 30 秒参考(神資料):アルパカでもわかる安全なPodの終了
- 2022/05/11 Oracle Cloud Hangout Cafe - ©︎ 2022 NTT DATA CorporationPod が落ちる際の挙動PodStatusRunning TerminatingPod削除開始deletionTimestamp設定コンテナ強制終了(設定されていたら)preStop 処理(preStop が終わったら)SIGTERM 処理terminationGracePeriodSeconds経過後SIGKILL 処理Service からPod へのルーティングが除外.terminationGracePeriodSecondsデフォルト: 30 秒preStop 処理が不適な場合、SIGTERM 処理中に Pod に Request=> Request エラーになり得る仕掛かり中の Request がある状態で、SIGTERM / SIGKILL 処理が走る 場合がある=> Request エラーになり得る
- 2022/05/11 Oracle Cloud Hangout Cafe - ©︎ 2022 NTT DATA CorporationPod が落ちる際のアプローチPodStatusRunning TerminatingPod削除開始deletionTimestamp設定コンテナ強制終了❶ preStop 処理=> Request を受け付けなくなるまで十分 sleepSIGTERM 処理terminationGracePeriodSeconds経過後SIGKILL 処理Service からPod へのルーティングが除外.terminationGracePeriodSecondsデフォルト: 30 秒 => 十分長く❷ Request 処理中のプロセスは、完了してから Shutdown する=> Graceful Shutdown❸ Request の処理が十分終わるterminationGracePeriodSeconds を設定し、SIGKILL されないようにチューニング
- 2022/05/11 Oracle Cloud Hangout Cafe - ©︎ 2022 NTT DATA CorporationPod が落ちる際のアプローチこの対応により、基本的に Request エラーとならず、Pod を落とすことができる■ Kubernetes 側の設定:● 適切な時間 preStop 処理で sleep 設定する● Pod が落ちる際に、仕掛かり中のリクエストが処理し切れる時間に、terminationGracePeriodSeconds をチューニングする■ Application 側の設定:● SIGTERM を受領しても、仕掛かり中のプロセスが完了してから、Shutdown するように実装今回は、終了にフォーカスしていますが、Pod の同時存在最低数を定義する、Pod Disruption Budget や、Pod が Ready になってから Request を受け付ける、Rediness Probe もあります (基本)!
- 2022/05/11 Oracle Cloud Hangout Cafe - ©︎ 2022 NTT DATA Corporation最後に、展開としてこのような設定を、システムを構成する各 MS で行い、商用影響なく Pod が落とすことができる(前述した戦略での GKE Update 等も乗り切れる) 必要がある。=> 大規模な場合、MS の数/新規追加される MS の数、.またそれら開発チームも膨大となり、横並びでの確認/統制が課題となる。.=> Chaos Mesh で無作為に Pod に擬似障害(=突然落とす)を起こし、設定漏れ/ミスを把握するPod 障害詳細は Main Session で !!=> 自動的に 設定漏れを炙り出す仕組み が必要
- 2022/05/11 Oracle Cloud Hangout Cafe - ©︎ 2022 NTT DATA CorporationDEMO の設定10 秒間隔でランダムにPod を落とす❶ preStop処理実装❷ preStop処理未実装HTTP RequestapiVersion: apps/v1kind: Deploymentmetadata:name: gracefullabels:app: gracefulspec:replicas: 3selector:matchLabels:app: gracefultemplate:metadata:labels:app: gracefulspec:containers:- name: gracefullifecycle:preStop:exec:command: ["sh", "-c", "sleep 3"]preStop 処理を実装した Pod の Manifest❶ preStop で 3 秒 sleep するため、ルーティング除外後に SIGTERM❷ preStop がないため、SIGTERM 処理中にリクエストが来る可能性=> リクエストエラーとなり得る
- 2022/05/11 Oracle Cloud Hangout Cafe - ©︎ 2022 NTT DATA CorporationDEMO📹 https://drive.google.com/file/d/1igm4DHoiK7lm6PcfTUZSDhpIMRke8w7q/view?usp=sharing
- 2022/05/11 Oracle Cloud Hangout Cafe - ©︎ 2022 NTT DATA Corporation終わり✔️ GKE Upgrade などで、商用環境の Pod を落とさなければいけないユースケースがある✔️ 適切な設定をすることで、Request 処理中の Pod でもエラーなく正常に落とすことができる。基本的な設定であるので忘れずに...✔️ 設定漏れがないか横並びで確認するために、Chaos Mesh は有効かも 👀 !?
- 2022/05/11 Oracle Cloud Hangout Cafe - ©︎ 2022 NTT DATA Corporation記載されている会社名、商品名、またはサービス名は、各社の商標登録または商標です。

Recommended

PDF
テスト文字列に「うんこ」と入れるな
PDF
DockerとPodmanの比較
PPTX
OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...
PDF
Kubernetesのしくみ やさしく学ぶ 内部構造とアーキテクチャー
PPTX
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
PPTX
本当は恐ろしい分散システムの話
PDF
分散トレーシング技術について(Open tracingやjaeger)
PDF
オススメのJavaログ管理手法 ~コンテナ編~(Open Source Conference 2022 Online/Spring 発表資料)
PDF
CircleCIのinfrastructureを支えるTerraformのCI/CDパイプラインの改善
PDF
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
PDF
Kubernetesによる機械学習基盤への挑戦
PDF
AlmaLinux と Rocky Linux の誕生経緯&比較
PPTX
「おうちクラウド」が今熱い!
PDF
Consistent hash
PDF
PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021
PDF
例外設計における大罪
PDF
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
PPTX
Istioサービスメッシュ入門
PPTX
Dockerからcontainerdへの移行
PDF
PostgreSQL 15の新機能を徹底解説
PDF
Azureを頑張る理由と頑張り方(Cloud Skills Challenge 2022 winter 発表資料)
PDF
At least onceってぶっちゃけ問題の先送りだったよね #kafkajp
PPTX
Spanner移行について本気出して考えてみた
PDF
ドメイン駆動設計 失敗したことと成功したこと
PDF
Docker Compose 徹底解説
PDF
シリコンバレーの「何が」凄いのか
PDF
Vacuum徹底解説
PDF
基礎から学ぶ PostgreSQL の性能監視 (PostgreSQL Conference Japan 2025 発表資料)
PDF
SAFe実践から見えた、フレームワークより大切な組織変革の道程(Scrum Fest Sendai 2025 発表資料)

More Related Content

PDF
テスト文字列に「うんこ」と入れるな
PDF
DockerとPodmanの比較
PPTX
OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...
PDF
Kubernetesのしくみ やさしく学ぶ 内部構造とアーキテクチャー
PPTX
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
PPTX
本当は恐ろしい分散システムの話
PDF
分散トレーシング技術について(Open tracingやjaeger)
PDF
オススメのJavaログ管理手法 ~コンテナ編~(Open Source Conference 2022 Online/Spring 発表資料)
テスト文字列に「うんこ」と入れるな
DockerとPodmanの比較
OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...
Kubernetesのしくみ やさしく学ぶ 内部構造とアーキテクチャー
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
本当は恐ろしい分散システムの話
分散トレーシング技術について(Open tracingやjaeger)
オススメのJavaログ管理手法 ~コンテナ編~(Open Source Conference 2022 Online/Spring 発表資料)

What's hot

PDF
CircleCIのinfrastructureを支えるTerraformのCI/CDパイプラインの改善
PDF
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
PDF
Kubernetesによる機械学習基盤への挑戦
PDF
AlmaLinux と Rocky Linux の誕生経緯&比較
PPTX
「おうちクラウド」が今熱い!
PDF
Consistent hash
PDF
PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021
PDF
例外設計における大罪
PDF
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
PPTX
Istioサービスメッシュ入門
PPTX
Dockerからcontainerdへの移行
PDF
PostgreSQL 15の新機能を徹底解説
PDF
Azureを頑張る理由と頑張り方(Cloud Skills Challenge 2022 winter 発表資料)
PDF
At least onceってぶっちゃけ問題の先送りだったよね #kafkajp
PPTX
Spanner移行について本気出して考えてみた
PDF
ドメイン駆動設計 失敗したことと成功したこと
PDF
Docker Compose 徹底解説
PDF
シリコンバレーの「何が」凄いのか
PDF
Vacuum徹底解説
CircleCIのinfrastructureを支えるTerraformのCI/CDパイプラインの改善
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Kubernetesによる機械学習基盤への挑戦
AlmaLinux と Rocky Linux の誕生経緯&比較
「おうちクラウド」が今熱い!
Consistent hash
PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021
例外設計における大罪
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
Istioサービスメッシュ入門
Dockerからcontainerdへの移行
PostgreSQL 15の新機能を徹底解説
Azureを頑張る理由と頑張り方(Cloud Skills Challenge 2022 winter 発表資料)
At least onceってぶっちゃけ問題の先送りだったよね #kafkajp
Spanner移行について本気出して考えてみた
ドメイン駆動設計 失敗したことと成功したこと
Docker Compose 徹底解説
シリコンバレーの「何が」凄いのか
Vacuum徹底解説

More from NTT DATA Technology & Innovation

PDF
基礎から学ぶ PostgreSQL の性能監視 (PostgreSQL Conference Japan 2025 発表資料)
PDF
SAFe実践から見えた、フレームワークより大切な組織変革の道程(Scrum Fest Sendai 2025 発表資料)
PDF
開発中の新機能 Spark Declarative Pipeline に飛びついてみたが難しかった(JEDAI DAIS Recap#2 講演資料)
PDF
PostgreSQL18新機能紹介(db tech showcase 2025 発表資料)
PDF
PGConf.dev 2025 参加レポート (JPUG総会併設セミナー2025 発表資料)
PDF
Can We Use Rust to Develop Extensions for PostgreSQL? (POSETTE: An Event for ...
PDF
つくって壊して直して学ぶ Database on Kubernetes (CloudNative Days Summer 2025 発表資料)
PDF
2025年現在のNewSQL (最強DB講義 #36 発表資料)
PDF
Java in Japan: A Journey of Community, Culture, and Global Integration (JavaO...
PDF
Unveiling the Hidden Layers of Java Class Files: Beyond Bytecode (Devnexus 2025)
PDF
論理レプリケーションのアーキテクチャ (第52回 PostgreSQLアンカンファレンス@オンライン 発表資料)
PDF
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
PDF
Apache Sparkに対するKubernetesのNUMAノードを意識したリソース割り当ての性能効果 (Open Source Conference ...
PDF
PostgreSQL最新動向 ~カラムナストアから生成AI連携まで~ (Open Source Conference 2025 Tokyo/Spring ...
PDF
pgbenchのスレッドとクライアント (第51回 PostgreSQLアンカンファレンス@オンライン 発表資料)
PDF
PostgreSQLのgitレポジトリから見える2024年の開発状況 (第51回 PostgreSQLアンカンファレンス@オンライン 発表資料)
PDF
ストリーム処理はデータを失うから怖い?それ、何とかできますよ! 〜Apahe Kafkaを用いたストリーム処理における送達保証〜 (Open Source...
PDF
生成AI時代のPostgreSQLハイブリッド検索 (第50回PostgreSQLアンカンファレンス@オンライン 発表資料)
PDF
DAIS2024参加報告 ~Spark中心にしらべてみた~ (JEDAI DAIS Recap 講演資料)
PDF
PostgreSQLのHTAP適応について考える (PostgreSQL Conference Japan 2024 講演資料)
基礎から学ぶ PostgreSQL の性能監視 (PostgreSQL Conference Japan 2025 発表資料)
SAFe実践から見えた、フレームワークより大切な組織変革の道程(Scrum Fest Sendai 2025 発表資料)
開発中の新機能 Spark Declarative Pipeline に飛びついてみたが難しかった(JEDAI DAIS Recap#2 講演資料)
PostgreSQL18新機能紹介(db tech showcase 2025 発表資料)
PGConf.dev 2025 参加レポート (JPUG総会併設セミナー2025 発表資料)
Can We Use Rust to Develop Extensions for PostgreSQL? (POSETTE: An Event for ...
つくって壊して直して学ぶ Database on Kubernetes (CloudNative Days Summer 2025 発表資料)
2025年現在のNewSQL (最強DB講義 #36 発表資料)
Java in Japan: A Journey of Community, Culture, and Global Integration (JavaO...
Unveiling the Hidden Layers of Java Class Files: Beyond Bytecode (Devnexus 2025)
論理レプリケーションのアーキテクチャ (第52回 PostgreSQLアンカンファレンス@オンライン 発表資料)
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
Apache Sparkに対するKubernetesのNUMAノードを意識したリソース割り当ての性能効果 (Open Source Conference ...
PostgreSQL最新動向 ~カラムナストアから生成AI連携まで~ (Open Source Conference 2025 Tokyo/Spring ...
pgbenchのスレッドとクライアント (第51回 PostgreSQLアンカンファレンス@オンライン 発表資料)
PostgreSQLのgitレポジトリから見える2024年の開発状況 (第51回 PostgreSQLアンカンファレンス@オンライン 発表資料)
ストリーム処理はデータを失うから怖い?それ、何とかできますよ! 〜Apahe Kafkaを用いたストリーム処理における送達保証〜 (Open Source...
生成AI時代のPostgreSQLハイブリッド検索 (第50回PostgreSQLアンカンファレンス@オンライン 発表資料)
DAIS2024参加報告 ~Spark中心にしらべてみた~ (JEDAI DAIS Recap 講演資料)
PostgreSQLのHTAP適応について考える (PostgreSQL Conference Japan 2024 講演資料)

その Pod 突然落ちても大丈夫ですか!?(OCHaCafe5 #5 実験!カオスエンジニアリング 発表資料)

  • 1.
    - 2022/05/11- NTTDATA- Keisuke SAKASAI @k6s4i53rx©︎ 2022 NTT DATA CorporationOracle Cloud Hangout Cafe #5LT: その Pod 突然落ちても大丈夫ですか
  • 2.
    - 2022/05/11 OracleCloud Hangout Cafe - ©︎ 2022 NTT DATA CorporationWho am I- 2022/05/11 Oracle Cloud Hangout Cafe -逆 井 啓 佑さかさ い©︎ 2022 NTT DATA CorporationCompany:- NTT DATA CorporationWork:- 決済システムの Product Owner と 非機能 Test (約半年間)- Kubernetes を始めとするモダンな技術スタック...Description:- 先日、業務内の GKE Upgrade 時に勉強した、「Pod の正常終了」について簡単にまとめて、LT しようと思います。k8s 超基本!!なお話になります...が大事なTopicです逆 井 啓 佑
  • 3.
    - 2022/05/11 OracleCloud Hangout Cafe - ©︎ 2022 NTT DATA Corporation商用環境でバンバン Request が飛んできている Pod、突然、落ちても大丈夫ですか??Introdaction
  • 4.
    - 2022/05/11 OracleCloud Hangout Cafe - ©︎ 2022 NTT DATA Corporation「突然」とは言わないまでも...例えば、GKE Upgrade の際には、Pod を落とす 場合もあります。※ Upgrade 戦略によるIntrodactionOld New❶ 新 Node 作成❷ 新 Node に Pod 作成❸ 旧 Node の Pod 落とす❹ 旧 Node 削除
  • 5.
    - 2022/05/11 OracleCloud Hangout Cafe - ©︎ 2022 NTT DATA Corporation「突然」とは言わないまでも...例えば、GKE Upgrade の際には、Pod を落とす 場合もあります。※ Upgrade 戦略によるIntrodactionOld New❶ 新 Node 作成❷ 新 Node に Pod 作成❸ 旧 Node の Pod 落とす❹ 旧 Node 削除落とした Pod が決済リクエストを処理中だった場合、そのリクエストはどうなるのか?正常に決済は終了できるのか?上記ついて、「Pod が落ちる」を踏み込んで理解することで考えます。
  • 6.
    - 2022/05/11 OracleCloud Hangout Cafe - ©︎ 2022 NTT DATA CorporationPod が落ちるPod が落ちる際の挙動Pod の Shutdownプロセス実行❶Service から Pod へのルーティング削除ReplicaSet やDeployment管理下からの除外❷ ❸replicas=3New!!これら3つの処理が、非同期に実行される。ここで、❷ のルーティング削除 => ❶ の Shutdown プロセス実施といった 順序制御はない 。preStop SIGTERMSIGKILL削除開始強制終了.terminationGracePeriodSecondsデフォルト: 30 秒preStop は最期にコンテナで実行される処理Pod に .deletionTimestamp が設定
  • 7.
    - 2022/05/11 OracleCloud Hangout Cafe - ©︎ 2022 NTT DATA CorporationPod が落ちる際の挙動PodStatusRunning TerminatingPod削除開始deletionTimestamp設定コンテナ強制終了(設定されていたら)preStop 処理(preStop が終わったら)SIGTERM 処理terminationGracePeriodSeconds経過後SIGKILL 処理Service からPod へのルーティングが除外.terminationGracePeriodSecondsデフォルト: 30 秒参考(神資料):アルパカでもわかる安全なPodの終了
  • 8.
    - 2022/05/11 OracleCloud Hangout Cafe - ©︎ 2022 NTT DATA CorporationPod が落ちる際の挙動PodStatusRunning TerminatingPod削除開始deletionTimestamp設定コンテナ強制終了(設定されていたら)preStop 処理(preStop が終わったら)SIGTERM 処理terminationGracePeriodSeconds経過後SIGKILL 処理Service からPod へのルーティングが除外.terminationGracePeriodSecondsデフォルト: 30 秒preStop 処理が不適な場合、SIGTERM 処理中に Pod に Request=> Request エラーになり得る仕掛かり中の Request がある状態で、SIGTERM / SIGKILL 処理が走る 場合がある=> Request エラーになり得る
  • 9.
    - 2022/05/11 OracleCloud Hangout Cafe - ©︎ 2022 NTT DATA CorporationPod が落ちる際のアプローチPodStatusRunning TerminatingPod削除開始deletionTimestamp設定コンテナ強制終了❶ preStop 処理=> Request を受け付けなくなるまで十分 sleepSIGTERM 処理terminationGracePeriodSeconds経過後SIGKILL 処理Service からPod へのルーティングが除外.terminationGracePeriodSecondsデフォルト: 30 秒 => 十分長く❷ Request 処理中のプロセスは、完了してから Shutdown する=> Graceful Shutdown❸ Request の処理が十分終わるterminationGracePeriodSeconds を設定し、SIGKILL されないようにチューニング
  • 10.
    - 2022/05/11 OracleCloud Hangout Cafe - ©︎ 2022 NTT DATA CorporationPod が落ちる際のアプローチこの対応により、基本的に Request エラーとならず、Pod を落とすことができる■ Kubernetes 側の設定:● 適切な時間 preStop 処理で sleep 設定する● Pod が落ちる際に、仕掛かり中のリクエストが処理し切れる時間に、terminationGracePeriodSeconds をチューニングする■ Application 側の設定:● SIGTERM を受領しても、仕掛かり中のプロセスが完了してから、Shutdown するように実装今回は、終了にフォーカスしていますが、Pod の同時存在最低数を定義する、Pod Disruption Budget や、Pod が Ready になってから Request を受け付ける、Rediness Probe もあります (基本)!
  • 11.
    - 2022/05/11 OracleCloud Hangout Cafe - ©︎ 2022 NTT DATA Corporation最後に、展開としてこのような設定を、システムを構成する各 MS で行い、商用影響なく Pod が落とすことができる(前述した戦略での GKE Update 等も乗り切れる) 必要がある。=> 大規模な場合、MS の数/新規追加される MS の数、.またそれら開発チームも膨大となり、横並びでの確認/統制が課題となる。.=> Chaos Mesh で無作為に Pod に擬似障害(=突然落とす)を起こし、設定漏れ/ミスを把握するPod 障害詳細は Main Session で !!=> 自動的に 設定漏れを炙り出す仕組み が必要
  • 12.
    - 2022/05/11 OracleCloud Hangout Cafe - ©︎ 2022 NTT DATA CorporationDEMO の設定10 秒間隔でランダムにPod を落とす❶ preStop処理実装❷ preStop処理未実装HTTP RequestapiVersion: apps/v1kind: Deploymentmetadata:name: gracefullabels:app: gracefulspec:replicas: 3selector:matchLabels:app: gracefultemplate:metadata:labels:app: gracefulspec:containers:- name: gracefullifecycle:preStop:exec:command: ["sh", "-c", "sleep 3"]preStop 処理を実装した Pod の Manifest❶ preStop で 3 秒 sleep するため、ルーティング除外後に SIGTERM❷ preStop がないため、SIGTERM 処理中にリクエストが来る可能性=> リクエストエラーとなり得る
  • 13.
    - 2022/05/11 OracleCloud Hangout Cafe - ©︎ 2022 NTT DATA CorporationDEMO📹 https://drive.google.com/file/d/1igm4DHoiK7lm6PcfTUZSDhpIMRke8w7q/view?usp=sharing
  • 14.
    - 2022/05/11 OracleCloud Hangout Cafe - ©︎ 2022 NTT DATA Corporation終わり✔️ GKE Upgrade などで、商用環境の Pod を落とさなければいけないユースケースがある✔️ 適切な設定をすることで、Request 処理中の Pod でもエラーなく正常に落とすことができる。基本的な設定であるので忘れずに...✔️ 設定漏れがないか横並びで確認するために、Chaos Mesh は有効かも 👀 !?
  • 15.
    - 2022/05/11 OracleCloud Hangout Cafe - ©︎ 2022 NTT DATA Corporation記載されている会社名、商品名、またはサービス名は、各社の商標登録または商標です。

[8]ページ先頭

©2009-2025 Movatter.jp