編集:これはLinodeのフリーモント施設での停電が原因のようですが、私は過去にこれにまだ問題がありました。どんな助けでもいただければ幸いです。
魚を教えてほしい
はい、「VPSがクラッシュするのはなぜですか?」と質問しています。私があなたに私のサーバーへのルートアクセスを与えたなら、あなたは2分で見つけることができると確信しています。エラーログを投稿するように言ってもらえると思いますが、あまり考えずに追い詰めます。しかし、それは私が望んでいることではありません。
魚を教えてほしい。
根本的な原因がわからない問題が発生しています。私のLinodeグラフを見て、私が何を意味するかを確認してください。クラッシュは、ネットワークトラフィックとディスクIOが最小のときに発生します。
これが発生したときに最初に、最も一般的で、最も基本的な場所を探す必要がありますか?また、何を探す必要がありますか?
これが発生したときにアラートを受け取るにはどうすればよいですか(サーバーがダウンしている間、8時間見逃さないように)?
サーバーに関連しないイベントが原因でサーバー全体がクラッシュしている場合は、より適切なプロバイダーを使用します。停電が原因でマシンがダウンしたという事実は、バックアッププロバイダーがないことを示しています。これは、特に事後まで警告を発しなかったように見えるため、問題があります。 Linodeはかなり信頼できるという評判があるので、私は驚いています。
これが発生したときに最初に、最も一般的で、最も基本的な場所を探す必要がありますか?また、何を探す必要がありますか?
どんなことを話しているのですか? /var/log/*
または同様のものは、何が起こったのかわからないときに一般的なデバッグを開始するのに最適な場所です。残念ながら、未知のサーバーのクラッシュに対する本当のキャッチオールはありません。注意が必要ですが、多くのサービスでより詳細なログを有効にすることを検討することをお勧めします。これにより、ログファイルが膨らむ可能性があります。
How can I be alerted when this happens (so I don't miss it for 8 hours while the server's down)?
このために、私は実際に単に外部サービスであることが最も簡単な解決策を見つけました。私の会社の前向きなWebサイトでは、 Pingdom のようなユーティリティと、 Nagios や Ganglia のようないくつかの内部ホストツールを使用しています。あらゆる面でこれを攻撃するのが最善の策です。さまざまな地理的ロケールとともに、稼働時間をチェックするための複数のソースを持つことが、監視の標準的な方法です。
自分のバージョンを維持するのと同じくらい魅力的で、(a)ネットワークと制御の外部にあり、(b)国や世界中に複数のサーバーがあると、はるかに優れた利益が得られることを忘れないでください。さらに、これらのサービスのほとんどはまったく高価ではありません。
これがお役に立てば幸いです。少なくとも、正しい方向に進むことができます。