GKEGateway と Cloud Service Mesh を使用してグローバルに分散されたアプリケーションを構築する
RDSAuroraを使っているところで、OSの空きメモリが少なくなったアラートが出たので、それについて細かく考察したら、それなりの量になったのでまとめた感じです。 別にAuroraじゃなくRDSMySQLでも、MySQL Serverでも同じ話なのですが、クラウドならではの側面もあるなということでタイトルはRDSにしております。 RDSのメトリクス監視 RDSはブラックボックスとはいえ、必要なメトリクスはだいたい揃っているので、CloudWatch を見たり……APIで取得してどっかに送りつけたりして利用します。 なので、まずは接続数とメモリについて復習です。 SHOW STATUS 的には Threads_connected です。 CloudWatch Metrics 的には、DBInstanceIdentifier →DatabaseConnections です。 見た感じ、ど

突然ですが... あなたは、あるゲームプロジェクトの本番リリース2日前にサーバエンジニアとしてJOINしました。いざリリースを迎えたとき、ElastiCacheのメモリが突然危険域を超え、さらにあと2時間で枯渇しそうな状況になりました。 さて、この状況におかれたあなたは何をしますか? はじめに モバイルゲームのシステムは新しいイベントをopenするとトラフィックが2倍、3倍、時には普段の10倍以上来ることがあり、トラフィックの変動が非常に大きい特性があります。 新しいゲームのリリース時はより顕著で、想定以上のトラフィックが来ることもしばしばあります。 この記事は、あるゲームプロジェクトの本番リリース時に大規模トラフィックが来た際のサーバトラブルを題材に、 どのような観点で問題を切り分けていったのか、トラブルシュートのプロセス どのような準備(負荷テスト)をしていれば防げるのか という話をし

今年1月に出版された「入門 監視」を読んだ.出版前から予約をしていたけど,他に積読もあり,読み始めるのが少し遅れてしまった.評判通り素晴らしく,特に「監視」というテーマをうまく言語化している本だと感じた.目次を見るとわかる通り,「あれも監視!これも監視!」という幅の広さに気付くことができる.本書は1人で読んで終わりにするのではなく,チームで輪読会をしてディスカッションをするなど,改善に繋げるために継続的に読むと良さそう.さらに本書で学んだ内容に Dive Deep するために他の書籍も併読するべきだと思う.今回は関連する書籍も紹介しようと思う. 入門 監視 ―モダンなモニタリングのためのデザインパターン 作者: MikeJulian,松浦隼人出版社/メーカー: オライリージャパン発売日: 2019/01/17メディア: 単行本(ソフトカバー)この商品を含むブログを見る 目次と正誤表 1章

大規模なスループットが発生するサービスでは、ログ送信それ自体の負荷や安定性について考慮する必要が高まります。それについて論じたブログ記事 Pros and Cons of Five Enterprise-ReadyLog Forwarding Patterns の抄訳です。 初めて分散ロギングを扱うとき、開発者は本能的に、アプリケーションのログをアプリケーションからロギングバックエンドに直接送信したくなるかもしれません。直接接続は魅力的です。このような通信は通常、トランザクション型の RESTAPI を介して行われ、すべてのログが通過するという誤った安心感を開発者に与えてしまいます。 残念ながら、このモデルには3つの脆弱性のポイントがあります。 ログが予期しないサイズやレートに達した場合にHTTP リクエストに対するバックプレッシャーが発生して、計装されたコードの正常な機能を破壊する恐

こんにちは、SREの菅原です。クックパッドの多くのシステムはAWS 上で稼動しており、そのWebサービスの多くはデータベースにAmazon RDSを使っています。WebサービスがDBを使う場合、ボトルネックになりやすいDBのパフォーマンスを落とさないためにスロークエリの監視はとても重要です。そこで、Amazon Elasticsearch Serviceを使ったスロークエリの集計・監視システムを構築したので、それについて紹介したいと思います。 ※今のところMySQLエンジンのみを対象としています システム構成 システムの構成は以下のようになります。 また、社内のシステムと完全に同じ訳ではありませんが、同様の構成のSAMプロジェクト(Elasticsearch Serviceに保存するまでの部分)をGitHubで公開しています。 https://github.com/winebarre

我々はKubernetes の何を監視すればいいのか? / CloudNative Days Kansai 2019

CoffeeScript is Beautiful & I Never Want to Write PlainJavaScript Again

Mackerelチームのエンジニアのid:itchynyです。 「mackerel-agentを入れるとloadavgが7時間ごとに上昇する」 先日、このような問い合わせを複数のお客さまから受けました。私も実験してみたところ、確かに再現しました。EC2 t2.microにmackerel-agentを入れて簡単なログ監視とプロセス監視を設定し、数日放置しました。 確かに、約7時間ごとにloadavgが上昇しています。この周期のcronの設定はしておらず、またmackerel-agent内部でも7時間ごとに行う処理はありません。しかし、プラグインを多く入れるほどloadavgのピーク値も上がります。本エントリーでは、この現象の原因について説明します。 loadavgが上昇する原因を調べるには、まずloadavg自体がどう計算されているかを知る必要があります。 まずは、Linuxがloada

本エントリはMackerel Advent Calendar 2017の23日目の記事です。 自宅の無線LANの利用状況をMackerelで監視するようにしたところ、予想以上にキモい仕組みができました。たとえば、家族の誰か(正確には誰かのスマートフォン)が外出するとSlackに通知を飛ばすことができます。 同じことをしている人は多くないと思うので、その知見を紹介します。 システム概要 まずは我が家のネットワーク構成を紹介します。 インターネットに接続しているブロードバンドルータがあり、無線経由でスマートフォンやPCがぶら下がっているような、ごく普通のネットワーク構成です。唯一変わっている点は、ブロードバンドルータ上でLinuxおよびMackerelエージェントが動いていることでしょう。 このルータの詳細は本稿では省きますが*1、ザックリ言うとRaspberry Pi 3を無線LANアクセス

Geeks Who DrinkとPostgreSQL Conference Japan 2017での資料です。nulab.connpass.com PostgreSQL Conference Japan 2017 (2017-11-03) | 日本PostgreSQLユーザ会 詳しく知りたい人は下記の本がおすすめです。 ただし注意点は9.3相当なのでプロセスの仕組みがちょっと違います。 待望の新刊出ました!10系ベースなのでぜひ読んでみてください。 ※2018/10/07 追記 読み応えのある内容になったかなと思います。レベル感で言えばOSSDBGoldの試験出る範囲です。特に内部構造は覚えて置いて損は無いでしょう。speakerdeck.com 内部構造の中で取り扱っていないところにAUTOVACUUM、TOASTとレプリケーションがあります。AUTOVACUUMはPostgre

先週発売された「ITインフラ監視[実践]入門」を読んだ.ちょうど業務で監視改善を検討しているところだったので,個人的に良いタイミングで読むことができた.あとお世話になってる @ariarijp が本書のレビューに参加されたってことで,すぐ読んでみようと思った. 監視 is 何 「監視」に対する理論や定石がまとまっていて,今までに無かった視点の本だなと感じた.一部Mackerel の例も出てくるけど,あくまで実例の紹介という感じで,導入しているインフラ技術や監視サービスに依存せず読めた.「サービスの安定稼働」って言うのは簡単だけど,そのためには多岐にわたる戦略が必要で,本来ならここまで本腰を入れて監視に向き合うべきだよなーと改めて感じたりもした. 閾値 (Threshold) 「閾値」を「しきいち」と読んでいるし,今までの現場でもそう読んでいたけど,本書では「いきち」と読みが振られていた.
![理論を知って改めて監視と向き合おう /「ITインフラ監視[実践]入門」を読んだ - kakakakakku blog](/image.pl?url=https%3a%2f%2fcdn-ak-scissors.b.st-hatena.com%2fimage%2fsquare%2f0dcdfd1fbfe24448e529053b0512e54c27fc12a7%2fheight%3d288%3bversion%3d1%3bwidth%3d512%2fhttps%253A%252F%252Fcdn.image.st-hatena.com%252Fimage%252Fscale%252Fd189d3d3e9bf89ba0717ee5397f65d4381afdcbd%252Fbackend%253Dimagemagick%253Bversion%253D1%253Bwidth%253D1300%252Fhttp%25253A%25252F%25252Fecx.images-amazon.com%25252Fimages%25252FI%25252F51NLjAmWCGL.jpg&f=jpg&w=240)
こんにちは、虎塚です。 10月18日(日)、次世代 Web カンファレンスへ行ってきました。イベントの趣旨は「「次世代 Web カンファレンス」を開催します -Block Rockin’ Codes」で公開されています。 最後のセッション「monitoring」に参加したので、レポートします。 オーナー: @songmuさんはてなで監視サービスのMackerelを作っている @mikedaさんクックパッド株式会社のインフラ監視をしている @rrreeeyyyさん ハートビーツ-でMSPをしている(サーバを預かって監視、構築など) @fujiwaraさん インフラや監視まわりのお仕事をしている 監視とは何か mikedaさん:監視とは、サービスが正常に稼動しているかをみて、異常を検知したら収束させるという活動を含むもの。 fujiwaraさん:落ちたら困るので監視する。将来リソースが足

次世代 Web カンファレンスで監視について話すことになったので、ネタとしてWEB系各社で使っている監視ツールを調査中。 うちはこれ使ってるよ!!!ってのがあったら@mikedaにメンションください! Cookpad Zabbix 昔はNagios+muninだけど台数増えて性能的に破綻した ビューはそのままじゃ辛いのでmunin風に表示するのを自作 StatusCake DataDog。サービス系、サーバに紐付かない系の監視に。DashBoard便利 waker。通知用。PagerDuty高い、と言ってryot_a_raiが秒で作ったらしい Kibana imon。独自のリアルタイムなサービス稼働状況表示ツール NewRelic 試し中なもの Real-User Monitoring : JSでbeacon飛ばしてfluentd -> BigQuery。Google SpreadShee
Zabbix+Pacemaker+Fluentd+Norikra+Jenkinsで監視、クラスタリング、ログ収集/解析、バックアップ:Elasticsearch+Hadoopベースの大規模検索基盤大解剖(終)(1/2 ページ) リクルートの事例を基に、大規模BtoCサービスに求められる検索基盤はどう構築されるものなのか、どんな技術が採用されているのか、運用はどうなっているのかなどについて解説する連載。最終回は、監視、クラスタリング、ログ収集/解析、バックアップに使っているOSS技術と、その使いどころを紹介する。 連載目次 リクルートの全社検索基盤「Qass」の事例を基に、大規模BtoCサービスに求められる検索基盤はどう構築されるものなのか、どんな技術が採用されているのか、運用はどうなっているのかなどについて解説する本連載。 最終回となる今回は、前回の「AWS+オンプレのハイブリッドクラウド

こんにちは。インフラストラクチャー部の加藤(@EugeneK)です。 今回はWebサービスを運用する上で欠かせない、モニタリングをクックパッドでどうしているかという話をします。 死活監視と性能監視Webサービスを運用している以上、そのサービスを稼働しているサーバがあり、サーバには故障やトラブルが発生します。 また、どれくらいのパフォーマンスが出ているか、リソースをどのくらい消費しているかなどのトレンドを把握することは、成長するサービスを支えていく上で欠かせません。 故障やトラブルにいち早く気づくための仕組みを死活監視と言います。 また、サーバリソースの時系列での推移を知るために、グラフとしてトレンドを可視化する仕組みを性能監視と言います。 ポーリング監視の限界とZabbixのアクティブ監視クックパッドでは死活監視にNagios、性能監視にMuninを使用してきましたが、サーバ台数の増加

リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く