web-dev-qa-db-ja.com

サーバーストレージとして使用されるコンパクトフラッシュカードの状態を監視および測定するにはどうすればよいですか?

コンテキスト

同社は、ある種のレジWebアプリケーションへのアクセスを販売しています。アプリケーションへのアクセスはVPNを介して提供されます。クライアントのVPNエントリポイントは、Voyage Linux(Debianの縮小版)を実行しているSoekrisボードです。これらのボードは、レプリケーションとRoRアプリケーションスタックを備えたMySQLで3年間実行されています。

これらのボードのストレージサポートは、コンパクトフラッシュ4GBカードです。

問題

これらのボードで定期的なエラーとランダムなアプリケーションのクラッシュが発生しています。最も頻繁なエラーは次のとおりです。

8月24日14:54:44box45 puppetd ​​[3669]:Puppet :: Network :: Client :: Masterを実行できませんでした:古いNFSファイルハンドル-/ var/lib/puppet/state/state.yaml

8月24日13:37:01box76カーネル:[2091.575622] EXT2-fsエラー(デバイスhda1):read_block_bitmap:ブロックビットマップを読み取れません-block_group = 30、block_bitmap = 983040

これらがHDDベースの場合、SMARTモニタリングツールを実行して、不良セクタと一般的なディスクの状態をチェックします。ただし、CFカードであるため、暗闇の中で測定が困難です。状況がどれほど悪い(または良い!)か。

これらのカードの状態を監視し、それらの状態を測定するにはどうすればよいですか?最終的にすべてのCFカードの変更を動機付けるいくつかの難しい事実を与える必要があるので、私は「対策」を主張します。

そして、物事をもう少し複雑にするために、私はSoekrisボードに物理的にアクセスできないので、これらすべてをリモートで行う必要があります。

2

このエラーは、CFカードメディアのセクションに問題があることをかなりしっかりと示しているようです。しばらく問題なく動作していて、問題が発生している場合は、カードが劣化し始めていると思います。テストする最も簡単な方法は、交換用のカードを使用して技術者を派遣し、交換することです。特に、限られた数のシステムでこれが発生している場合はそうです。すべてのメディアには寿命と故障率があります。カードへの読み取り/書き込みサイクルが多いほど、カードは早く死んでしまいます。

注目すべきもう1つのこと:毎回同じ場所の近くで読む際のエラーはありますか?それはおそらくカードの特定の部分でも悪いセルだと私に言うでしょう。

Fsckがこれらのカードで同じように機能するかどうかはわかりません。そのエラーを見た私の最初の傾向はそれを交換することです。

2