web-dev-qa-db-ja.com

継続するmpt2sas syslogメッセージの解読

概要

新しいハードウェアをインストールしてから、これらの不可解なメッセージがsyslogに表示されていますが、問題が何であるか、それが深刻であるか、それに対して何をすべきかわかりません。

それらは新しいSATA HBAからのものであり、パターンに従います。 5〜30秒後に、最初のメッセージのいくつかに続いて2番目のメッセージのいくつかが表示されます。それらはすべて同じ秒でログに記録されるblobで提供され、それぞれの正確な量は約2〜35の間で変化します。エントリが表示される間隔は数分または数時間です。

2つのメッセージの例:

Jul 13 06:06:23 durandal kernel: [366918.435596] mpt2sas0: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Jul 13 06:06:28 durandal kernel: [366923.145524] mpt2sas0: log_info(0x31110d01): originator(PL), code(0x11), sub_code(0x0d01)

常に常に0x31120303で、その後に0x31110d01が続きます。

mpt2sasは、私が使用しているSATAホストバスアダプターのドライバーですが、エラーの内容は非常にわかりにくいです。それは問題が何であるか、それがどのディスクまたはポートに付いているのか、それがどれほど深刻であるかを教えてくれません。

ハードウェア

Supermicro X9SCL with Xeon E3-122 および8GBのRAM。

LSI SAS2008ベースのSupermicro AOC-USAS2-L8I Supermicroに接続されたSAS/SATA HBA CSE-M35T-1B ディスクトレイセット。 3つのWestern Digital WD30EZRX と2つのSegate ST3000DM001 が接続されています。すべての3TBドライブ(実際には同じ数のセクター)。使用中のポートエキスパンダーはありません。

HBA、ディスクトレイ、および4つのドライブが新しい​​。 WD30EZRXの1つは数か月前からあり、問題はありませんでした。以前に内蔵Intel SATAコントローラーに接続していた場合は、この新しいセットアップでドライブベイに移動しました。

HBAに頻繁にリセットする必要があり、本当にひどいパフォーマンスが得られるという問題がありました。ファームウェア/ BIOSをSuperPhaseから入手可能な最新リリースである「フェーズ12」に更新し、タイプをITに変更しました(つまり、パススルー、すべてのソフトウェアRAIDを使用する予定だったため、統合RAIDのIRから):2008IT12.FW。このアップデートにより、初期の問題がすべて解決され、私は上記のメッセージを後で取得し始めました(以下を参照)。

追加した最初の4つのディスクはすべて、最初のSFF-8087ポートにあります(4つのSATAケーブルに分割)。追加した最新のディスクは、もう1つのポートにあります。

システム上の他の唯一のディスクはOSを含み、統合されたSATAコントローラーにプラグインされた古いIntel 80GB SSDです。

ソフトウェア

Ubuntu 11.10(独占的)。 Linux 3.0.0-14-server x86_64。 OSに付属のmpt2sasドライバーを使用します。

これらの5つのディスクでLinux mdを使用してRAID6アレイを構築しようとしています。 3つのディスクの縮退アレイ、2つのSegate、および1つの新しいWDドライブから始めました。これは高速で非常にうまくいきました。ファームウェアの更新を行った後、ログにメッセージはありませんでした。その間、同じコントローラのポート0で古いWDディスクをまだ使用しています。

他の新しいWDディスクをアレイに追加しました。再構築が開始され、syslogにこれらのメッセージが定期的に表示されるようになりました。アレイにディスクを追加するのにかかる時間はわかりませんが、推定時間(cat/proc/mdstat)の範囲は数千から数万分で、最初の3つのディスクよりもはるかに長くかかります。 WDディスクの方がはるかに遅いことは理解しています。複数のディスク障害の可能性を削減するために、さまざまなモデルを入手しましたが、それらは2つの最も安価な3TBモデルでした。

ノート

SMARTはどのディスクの問題も報告しません。どのディスクにもエラーのログは記録されておらず、障害の統計はいずれもしきい値に近いものはありません。

ログに記録されたメッセージは、最後のディスクを追加した後にのみ表示され始めました。これは、問題が発生している可能性があることを示唆していますが、他に何も指摘していません。

このドライバからのログメッセージに対応している ヘッダーファイル を見つけました。最初のメッセージは、リストされていない「サブコード」0303の中止(コード12)のようです。 2番目のメッセージもリセット(コード11)であり、理由も明確ではありません。 0303と0d01が何を意味するかを判断できれば、それは非常に役立ちます。

5ディスクRAID6の4ディスクが不完全なアレイであることを知っています。 4番目のディスクの統合が完了したら、古いディスクの内容をアレイにコピーし、古いディスクもアレイに追加する予定です。

15
Chris Smith

おそらくあなたの最善の策は、ディスク間およびsas raidコントローラーまでのハードウェアの問題です。私は試すことをお勧めします:

  1. ベンダーの診断ツールがあれば実行します
  2. ケーブルの確認/再装着/交換
  3. ハードウェアコンポーネントを取り除き、ディスクをRAIDコントローラー(コントローラー自体を含む)に接続するチェーン内のハードウェアを交換します(つまり、マザーボード統合RAID以外のものを試してください)。

まったく同じ2つのDell PowerEdge R515のうちの1つに非常によく似たメッセージが表示されていました(正確な数値コードはありませんが、ログがmpt2sas0メッセージで定期的にいっぱいになります)。デル独自の起動可能な診断により、これらは「ハードウェアエラー」として検出され、RAID sasバックプレーンを交換することで問題は解決しました。

調査していたところ、さまざまなmpt2sas0エラーコードが何を意味するのかについての包括的なリソースが見つかりませんでした。ハードウェアベンダー固有である可能性もあります(SASについてこれを確認または拒否する必要がある場合)。そのため、エラーコードが大きく異なる可能性がありますが、SMARTクリーンであるmpt2sas0がエラーコードを報告する他の正当な理由を想像するのは困難です。

これらのエラーは非常に深刻な場合があります。私のR515は、12ディスクのUbuntu LinuxソフトウェアRAID 6を使用して、これらのメッセージで1週間問題なく動作したように見えましたが、突然、アレイから12台のディスクすべてが壊れた(!)

また、私の場合、SMARTすべてのディスクが完全にきれいでした。良いチェックは、スマートな自己診断テストです:smartctl -t long /dev/sdX、そしてsmartctl -l selftest /dev/sdX。すべて問題なければ、テストでCompletedと表示され、LBA_first_err列は空になります。

5

うわー、タフなもの。

これ は、デバイスのいずれかに高負荷がかかっているため、0x31120303がバスリセットであることを示しているようです。それはあなたがそれを心配する必要がないとも言います。 (ハハ、そうそうそう。)

This は、デバイスの1つがコマンドに応答するのに時間がかかりすぎているために、これらのログメッセージが発生していることを示しています。 これ は同じことを示し、高負荷で発生することも示しています。

これは完全な答えではありませんが、うまくいけば、役に立つ方向にあなたを導くでしょう。

4
Michael Hampton

これは、ディスクにエラーがあることを意味します。これは、LSIのSASコントローラのSATAディスクであり、エラーのためにすべての未解決の要求が中止されました。

ほとんどの場合、ディスクに中程度のエラーがあり、これがこのエラーのトリガーです。このエラー自体は中程度のエラーを意味するものではなく、元のディスク障害の原因を見つけるために他のヒントについてログを確認する必要があります。

少し詳細なバージョン: http://blog.disksurvey.org/blog/2014/03/27/sata-handling-of-medium-errors-log-info-0x0x31080000/

0
Baruch Even