エンジニア組織としての監視文化の作り方 Nagisaインフラエンジニアの榎戸です。 今回は僕が入社してから一年が経ったので、 僕が感じた事とやってきたことを監視に絞って書きたいと思います。 ※また今回は技術的な内容についてはあまり触れておりませんのでご了承ください。 入社時の状況 今ではかなり改善できたので笑い話となりますが 当時(昨年9月)はなかなか言葉には出しづらい状態でした。 当時の状況 監視はCloudWatchに数個 Nagiosとmuninが監視の役目を果たさず稼働している 監視の重要性の認識不足 障害が起きてから数時間後に気付く 障害対応をすると感謝されながらランチに連れて行ってもらえる こんな状態でした。インフラエンジニアとして入社したのに 障害対応をするとランチに連れて行ってもらえる という体験には驚きと動揺が隠せませんでした。 今まで当たり前だった障害対応ですが お


こんにちは。CTOの馬場です。 Performance Co-Pilotというモニタリングツールをご存知でしょうか? 先日、Performance Co-PilotのカンファレンスPCP.CONF 2018 に行ってきました。 Performance Co-Pilot Conference 2018 正直かなりマニアックなツールなので、カンファレンス!そんなにユーザいたの!すごい!みたいな気持ちで参加したところ、 参加者は15人くらいで、だいたいはお互いに知り合いっぽい、みたいな感じで驚きました。 (ぱっとみですが、半分くらいはRed Hatの方だったのかな?)本エントリではユーザと日本語情報流通が増えることを祈念して Performance Co-Pilot の紹介をします。PCPの特徴 Performance Co-Pilot 私の知る限り日本では知名度が低めだと思いますが、Pe

モヒカン族とカジュアルに。 @studio3104と@nakashii_さん主催の Monitoring Casual Talk #2で発表してきた。 てか、全員発表タイプ。 会場につくとそこにはステキな張り紙がお出迎え。 帰り際にこの紙をいただいたので、会社のモニタの裏に張ろうと思う。 自分の発表資料はこちら。 資料はどうでもよくて、議論がメイン。 疑問をぶつけて、自分はこうしていて、 で、みなさんはどうしていますか?ってのをお話した感じ。 資料からは、全く伝わらないのは仕様です。 リリース後の監視項目について話をするのが目的。 設定を元に会場のみなさんにやさしくつっこんで頂き大変勉強になった。 議論に臨場感が出て思ったより話が盛り上がってよかった。 以下、つっこみ。思い出しながらまとめ。 ■SSL証明書のチェック間隔の話 ・15日前にアラートとかだと、けっこうばたばたしないか? ・もっ

1リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く