Dell 1950サーバーで問題が発生しています。 RHEL 4.6をOracleと他のいくつかのソフトウェアと共にここにインストールしています。
Sshセッションとサーバーに接続したモニターで、「カーネル:ジャーナルコミットI/Oエラー」というエラーメッセージがランダムに表示され、「EXT3-fsエラー(デバイスsda5)」というエラーが表示されます。 start_transaction:ジャーナルは中止されました。」
これは何度か発生していますが、インストール中の同じ時点では発生しません。実際、前回システムが稼働していて、データベースをOracleにインポートしようとしていました。
これはいくつかのハードドライブで起こったので、問題ではないと確信しています。これは私にレイドコントローラーが悪くなっていると思います。
皆さんはどう思いますか?
**更新**
それが悪いハードドライブだったことをかなり確信してください。サーバーに別のドライブを投入しましたが、問題なく48時間ほど稼働しています。
以前にこれらのエラーを確認しましたが、インストールプロセス中には確認していません。
これは、ドライブに十分なエラーが発生し、OSがそれを読み取り専用モードにしたことを意味します。完全なログを見つけることができた場合、おそらく、表示された完全オンの障害エラーの前に再試行して機能したいくつかのI/Oエラーが存在します。言及された実際のブロックとの何か。
ストレージシステムのエラーです。それは間違いなくRAIDカード、RAIDアレイのドライブ、カードからドライブへのケーブル、ドライブが接続するバックプレーン、RAIDカードが接続されているスロット、ハードドライブの電源、またはその他CPUと実際のストレージブロックの間。
それはあなたが言ったようにRAIDコントローラーが故障している可能性があります(もしあればRAIDコントローラーを試してください)。それはコントローラーのドライバーである可能性があります(使用可能な場合は代替ドライバーを確認します。 。)カーネルである可能性があります(RHELでは十分にテストされていますが、可能性は低いです)。ブロックキャッシュをめちゃくちゃにするのが悪いRAMかもしれません。
ハードウェアの問題は、一見ランダムなエラー動作に基づいていますが、最も可能性の高い原因です。
3つの可能性が思い浮かびます:
メモリの問題があります(「ランダムな」クラッシュを引き起こすことがよくあります)。あなたがそこにECC RAMを持っているなら、明らかにそれはあまりありそうにありません。
バスに問題があります。数年前、TyanデュアルOpteronマザーボードのAPICコントローラーが壊れて同じ問題が発生しました。それを示唆する他のログエントリがありましたが、症状の大部分は、読み取り専用の自動再マウントを伴うディスクドライブのランダムな破損でした。私の場合、それは外部FC RAIDボックスであり、問題がなかったので、ディスクに関連していないことを知っていました。
RAIDコントローラは二段です。
これは私が問題を考える順序です。
ディスク、特にルートパーティションがいっぱいでないことを確認します。 dfを使用して、ファイルシステムのディスク使用量を確認します。
df -h
使用率が100%に近いか等しいパーティションを探す