RAIDデバイスのシングルビットエラー？

Question

PCを所有してから（30年）初めて、検出されず、修正されていないシングルビットディスクエラーが発生しました。 RAIDアレイ内。イベントのシーケンスは

CFカードからデジタル画像（カメラ生ファイル）のコレクションをアップロードします
Lightroomで編集を行います（元のファイルは更新されません）
すべてを外部アーカイブディスクにバックアップします（Retrospectを使用）
...時間が経過する（約1週間）...
Lightroomでファイルを再度開きます-ファイルが破損しています（大きな正方形のマゼンタの斑点）
アーカイブディスクからコピーを復元します-復元されたコピーは破損していません
2つのファイルを比較します。ビットの違いは1つだけです...元々0x34だったバイトが0xB4になりました

オンラインデバイスは、ハードウェアRAIDカード（3WARE 9560SE-4LPML）上のRAID-1の2TBドライブのペアです。

上記のシーケンスでは、アーカイブされたコピーが破損していないため、手順3の後で明らかにエラーが発生し、元の書き込み中にエラーが発生することはありませんでした。このファイルはCanonCR2 rawファイルであり、Lightroomが元のRAWファイルを更新することはありません。これらは「デジタルネガ」と見なされ、更新されることはありません。代わりに、適用された一連の編集を含むサイドカーXMPファイルとしてすべての編集を保存します。ファイルの日付/時刻は元のファイルから変更されていません。

明らかにどういうわけかビットエラーが発生し、警告を生成せずにRAIDハードウェアによって伝播されました。 RAIDエラーログを確認しましたが、過去18か月間（ソフトウェアとファームウェアを最後にアップグレードしてから）、特筆すべきことは何もありません。

要約する：

データは元々正しく書かれていました
その後、バックアップにコピーされたときに正しく読み取られました。
その後しばらくして、ディスク上でビットが反転しました（ファイルを何も書き換えなかったため）。
RAIDハードウェアは、週に1回「検証」を実行するように設定されています。エラーは検出されませんでした。

それはただ気紛れです。 RAIDハードウェアログでミスコンペアエラーが発生することが予想されます。

また、両方のドライブのSMARTデータは、該当するすべてのエラー属性に対してzeroを示しているため、障害のあるディスクを除外できます。

196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0 197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x000a 200 200 000 Old_age Always - 0

そして他のすべても同様に名目上のものです。

誰かがこれが起こるシナリオがあります検出されない？

Jason C · Accepted Answer

1つの可能性は、RAMまたはステップ4の読み取り時のコントローラーのランダムビットフリップです。読み取り時にデータが破損している場合は、ステップ4で表示されますが、まだキャッシュされている場合は、 d破損したキャッシュデータがまだ使用されている可能性があるため、ファイルを比較するときに手順6でも確認してください。

このケースをテストするには、すべてのハードウェアの電源を入れ直してキャッシュがクリアされていることを確認し、ファイルを開いて（そしてバックアップとの比較を実行して）もう一度試してください。すべてが順調である場合、これが問題でした（読み取りのどの段階でビットフリップが発生したかを知る方法がないため、未解決の謎としてそれをチョークする必要があります）。^†

これに失敗すると、2番目の、さらに不幸な可能性は、おそらくランダムなRAM（またはあなたの説明に基づいてRAIDコントローラーで）ビットフリップオン書き込みです;しかし、あなたは操作していましたディスクに破損したコピーが存在するにもかかわらず、手順2と3で適切にキャッシュされたコピー。1週間後にデータに再度アクセスすると、もちろんディスクからデータを再読み込みし、元々書き込まれていた破損したデータになってしまいます。。これは多くの仮定を行い、少しの不運に依存します。この場合は、バックアップファイルを復元して先に進む必要があります。

本当に考えられるのは、これらの2つだけです。ドライブ自体の問題のようには聞こえません。いずれにせよ、ハードウェアのどこでエラーが発生したかを知る方法がないため、安全のためにフルメモリ診断を実行することをお勧めしますが、原因は不幸なEMIまたは宇宙線である可能性が高いです。カナダのルークが彼の答えで述べたように、ECC RAMは、マザーボードがそれをサポートしている場合、少なくともRAM側で、このタイプのイベントから保護します。実際にはまったく珍しいことではありません。

^{†このケースは、2番目の可能性ではなく、OPの問題であることになりました。}

Canadian Luke · Answer

ラムを確認してください。 zfsのようなファイルシステムは、このような問題を防ぐためにeccメモリ（メモリのエラーチェックと修正）を推奨しています。

あなたのレイドコントローラーは、与えられた情報を単に書き、正しい情報を取得したと想定しました。受け取った情報が正しいかどうかはチェックせず、正しく書かれているだけです。

お使いのマザーボードはeccメモリをサポートしていない可能性がありますが、それでこの問題は修正されるはずです。ラムが多ければ多いほど、異常が発生する可能性が高くなるため、太陽フレアがそのバイトを変更した可能性もあります。

私は自分の独房で町を離れていますが、月曜日に情報源を引用することができます