web-dev-qa-db-ja.com

突然到達不能な非ロギングEC2インスタンスをどうするか?

CanonicalのUbuntu10.04LTSを実行しているEC2「マイクロインスタンス」があります。現在6〜9か月間実行されており、再起動されることはめったにありません(最大で数週間に1回)。

定期的な適性の更新、適性の完全アップグレードだと思ったことを実行しました。新しい-ec2linuxイメージがいくつかインストールされているように見えることに気付いたので、システムを再起動しました。再起動してコンソールで「実行中」ステータスに戻ったように見えましたが、通常のsshおよびhttpサービスでは戻りませんでした。エラスティックIPを再関連付けして、停止して開始しようとしました...喜びはありません。

奇妙なことに、「Get System Log」(AWSコンソール)は完全に空白のログを返します。空の。何もありません。 1文字ではありません。 (少なくとも、最初のスタートストップの後は空です。ストップ前には、再起動に関する最後の行が含まれていました)。

私はいくつかの 停止-開始サイクル を試しましたが、改善はありません。

インスタンスを復活させるために次に何を試すべきかアドバイスはありますか?

7
timday

最近、まったく同じ問題が発生しました。私は一般的にEC2にまったく慣れていませんが、Ericのブログの助けを借りて、問題のトラブルシューティングと解決に成功しましたが、それが実際に何であったかはまだわかりません。この特定のAMIのカーネルAKIとその新しく更新されたカーネルイメージ(BTW、同じAMIを実行しているIm)が欠落している可能性があると思います

  • インスタンスを停止し、ボリュームを新しいインスタンスに接続しました(同じAMIで実行)。 e2labelとfstabで少し遊んでいなければなりませんでした。
  • 古いファイルシステム(devとprocを含む)をマウントし、chrootしました
  • 対応するAKIが見つからなかったため、カーネルを最新バージョンより前のバージョンにアップグレードしました。 EC2APIツールを使用してAKIを手動で変更する必要がありました
  • 新しいEBSボリュームを削除し(最初のパーティションラベルを修正)、古いボリュームに再起動しました

現在実行中のIm2.6.32-318-ec2

私が行方不明のAKIを問題の原因として誤って指摘した場合、誰かが私を訂正できますか?とにかくそれは機能し、本番システムに適用する前に、まずテストホストですべてのアップグレードをテストすると確信しています。

4
ne7runner

私の解決策/回復は:

  • Ubuntu 10.04 AMI ami-c00e3cb4を使用して新しいインスタンスをインスタンス化します(すぐに更新およびアップグレードされ、linux-image-2.6.32-319-ec2に再起動しても問題ありません)。
  • 重要なすべてのパッケージを再インストールしました
  • 古い非起動インスタンス(非起動になった後に作成された)のスナップショットをボリュームとしてマウントしました。
  • 重要な/ etcと/ varおよび/ homeのほんの一握りでrsynced

そしてそれは以前のように戻ってきました(少し粗雑であるという利点があります)。

問題のあるイメージで新しいインスタンスを起動しようとはしませんでした。なぜなら...確かに、すべての「状態」はディスクイメージに存在するため(ブート関連の破損が発生したと推測できます)、そうしませんでした。別の結果を期待してください。

ただ「それらの1つ」だと思いますか?

将来的には、より定期的に、カーネルが更新される前にスナップショットを作成する予定です。

3
timday