web-dev-qa-db-ja.com

Linus / ext4 / nvmeが高IO中にクラッシュする

Mvnコンパイル中に、ランダムにクラッシュします。

問題は高に関連しているようですIO=そしてkern.logで、私は次のようなものを見ることができます:

kernel: [158430.895045] nvme nvme1: controller is down; will reset: CSTS=0xffffffff, PCI_STATUS=0x10
kernel: [158430.951331] blk_update_request: I/O error, dev nvme0n1, sector 819134096 op 0x0:(READ) flags 0x80700 phys_seg 1 prio class 0
kernel: [158430.995307] nvme nvme1: Removing after probe failure status: -19
kernel: [158431.035065] blk_update_request: I/O error, dev nvme0n1, sector 253382656 op 0x1:(WRITE) flags 0x4000 phys_seg 127 prio class 0
kernel: [158431.035083] EXT4-fs warning (device nvme0n1p1): ext4_end_bio:309: I/O error 10 writing to inode 3933601 (offset 16777216 size 2101248 starting block 31672832)
kernel: [158431.035085] Buffer I/O error on device nvme0n1p1, logical block 31672320
kernel: [158431.035090] ecryptfs_write_inode_size_to_header: Error writing file size to header; rc = [-5]

エラーを再現するには、次のようにします。

stress-ng --all 8  --timeout 60s --metrics-brief --tz

acpiphp.disable=1 pcie_aspm=off/etc/default/grupに追加するなど、いくつかのブートオプションを試しましたが、これはストレステストに役立つようですが、コンパイルには役立ちません。

  • ディストリビューション:Ubuntu 19.10
  • カーネル:5.3.0-45-generic#37-Ubuntu SMP Thu Mar 26 20:41:27 UTC 2020

nvme listは以下を示します:

Node             SN                   Model                            Namespace Usage                      Format           FW Rev  
---------------- -------------------- ---------------------------------------- --------- -------------------------- ---------------- --------
/dev/nvme0n1     28FF72PTFQAS         KXG50ZNV256G NVMe Toshiba 256GB          1        256,06  GB / 256,06  GB    512   B +  0 B   AADA4102
/dev/nvme1n1     37DS103NTEQT         THNSN5512GPU7 NVMe Toshiba 512GB         1         512,11 GB / 512,11  GB    512   B +  0 B   57DC4102
2
Brimstedt

これはNVMeサブシステムのどこかにある「一般的な障害」にすぎないため、問題がどこにあるのか正確にはわかりません。しかし、私はあなたが問題を特定するために何を試みることができるかを提案できます。

  1. Nvme_core.default_ps_max_latency_us = 5500カーネルブートオプションを追加してみてください。
  2. Nvme-cliパッケージをインストールし(または sources から最新のものをビルドすることをお勧めします)、smart-logやerror-logなどのさまざまなログを確認します。エラーをさらに診断するのに役立ちます。
  3. 他のディストリビューション(ライブ)を起動してみて、その下でストレステストを行って、これがカーネルバージョン/ディストリビューションに関連しているかどうかを確認してください。 Systemrescuecdディストリビューションが出発点として適しているかもしれません。
  4. それでも問題が解決しない場合は、MBファームウェア(実際にはUEFIのBIOSではないBIOS)を最新のファームウェアに更新してみてください。これは明白に聞こえませんが、パッチノートでもNVMe/PCI-Eサブシステムに直接関連するものがない場合もありますが、役立つ場合があります(実用的な知識)。
  5. NVMeドライブのファームウェアを更新します。このためのベンダー提供のツールとマニュアルを探します。
  6. 上記のすべてが役に立たない、または手掛かりが得られない場合は、未知のバグまたはハードウェア障害に直面している可能性があります。
2
NStorm

エラーは、/ homeを含むssdの1つでのみ発生したことに気付きました

/ homeをマシン内の他のディスクに移動しました。これまでのところ、はるかにうまく機能しているようです。

0
Brimstedt