帰り道でケータイに監視サーバからSSHタイムアウトのアラートが入ったので、どうせ個人サーバだし、よくある*1一時的な障害だろうとたかをくくって、家に帰ってPCの電源を入れてアクセスしてみたら、本当にサーバが落ちていて焦りました。
Pingは帰ってくるものの、HTTP、SSH、SMTP、IMAPなどのアプリは全滅。Pingに遅延はないし、さくらのMRTGにも異常はないので、これらを見る限りトラフィック過多とかではなさそう。気になるのはSSHのコネクション自体はいったん開く(Connectiontimed outではなく、Connectionclosedといわれる。)という不思議な症状であること。つまり、つながるが一方的に切られる状態であり、まったく応答がないわけではない。もし、プロセスが死んでいたら、そもそもコネクションは開かないはず。これはむしろすっぱり落ちているよりも嫌な予感がする。
以下、障害対応メモ。
† 20:30 状況確認を手配
さくらのリブート受付係に電話し、コンソール状況の確認と完了次第のケータイに折り返しを依頼。
† 20:50 エラー状況の報告
さくらより入電。コンソールには「rejecting I/O to offline device」が連続して出ている状態との報告。これは何らかの理由でディスクに障害が起こってデバイスがオフラインになったときにしか起こらない*2エラーなので、ちょっと嫌な予感。ひとまずリブートと RAID ボリュームのチェックを依頼。
それにしてもディスクが1つしかないマシンで、そのディスクがオフラインになってもちゃんとカーネルが生きているっていうのもおもしろいですね。
† 21:16 復旧の報告
ひとまずリブートしたら復旧したとのこと。RAID状況に問題なし。
サービスの疎通が確認できたとの報告。
ログによると2時間くらい落ちていたようです。
/var/log/cronlog
とりあえずこのまま経過観察をするということになりそうです。4月末にディスクを交換したばかりなのについていませんね。
ついでに、先日モデムを交換したADSLの不調も復活しちゃってるし。。。。
このエントリへのTrackbackにはこのURLが必要です→https://blog.cles.jp/item/3628
コメントは承認後の表示となります。
OpenIDでログインすると、即時に公開されます。
OpenID を使ってログインすることができます。