SLES 10 SP4（x86_64）-HP Proliant DL380G4-ランダムに応答しなくなる

Question

HP Proliant DL380G4をSLES10 SP2（i586）からSLES 10 SP4（x86_64）にアップグレードするという不幸がありました。インストールはスムーズに完了しましたが、数日間の稼働時間の後、サーバーが応答しなくなりました。サーバーはPINGに応答しますが、SSHおよびコンソールアクセスでさえ失敗します。回復する唯一の方法は、サーバーをコールドブートすることです。

サーバーが応答しない場合、syslogはログを何も表示しません。検索すると、Linuxのさまざまなフレーバーについて報告された同様のインスタンスを確認できました。通常は、サーバーのBIOSまたはファームウェアをアップグレードすることで解決されました。

また、ブートオプションでacpi = htとacpi = offの両方を試しましたが、成功しませんでした。

HPパスポートサイトから入手できるサーバーBIOSバージョンをアップグレードしましたこのリンクでしかし、これで解決しませんでした。

次に、ストレージコントローラーのファームウェアをここからアップグレードしようとしました

サーバーを再起動し、これで問題が解決するかどうかを確認するのを待っています。根本原因とその修正方法に関する提案/推奨事項はありますか？

私が見ているものにかなり近い1つの投稿を見つけることができました buntu 12.04-HP ProLiant DL380 G4-Load Maxes Out/Unresponse

サーバー情報：

Linux hostname 2.6.16.60-0.85.1-smp #1 SMP Thu Mar 17 11:45:06 UTC 2011 x86_64 x86_64 x86_64 GNU/Linux > lscpu Architecture: x86_64 CPU(s): 4 Thread(s) per core: 2 Core(s) per socket: 1 CPU socket(s): 2 NUMA node(s): 1 Vendor ID: GenuineIntel CPU family: 15 Model: 4 Stepping: 1 CPU MHz: 3200.225 L1d cache: 16K L2 cache: 1024K > modinfo cciss filename: /lib/modules/2.6.16.60-0.85.1-smp/updates/cciss.ko license: GPL description: Driver for HP Smart Array Controllers version 3.6.28-24 (d927/s1461) author: Hewlett-Packard Company srcversion: 737C49390DD1F6FB9BC03F7 >slabtop Active / Total Objects (% used) : 331966 / 339552 (97.8%) Active / Total Slabs (% used) : 20306 / 20315 (100.0%) Active / Total Caches (% used) : 98 / 136 (72.1%) Active / Total Size (% used) : 78133.61K / 79253.95K (98.6%) Minimum / Average / Maximum Object : 0.02K / 0.23K / 128.00K OBJS ACTIVE USE OBJ SIZE SLABS OBJ/SLAB CACHE SIZE NAME 191752 191637 99% 0.09K 4358 44 17432K buffer_head 44916 44891 99% 0.20K 2364 19 9456K dentry_cache 35620 35561 99% 0.78K 7124 5 28496K ext3_inode_cache 15064 15035 99% 0.52K 2152 7 8608K radix_tree_node 6510 5859 90% 0.18K 310 21 1240K vm_area_struct 5782 5689 98% 0.06K 98 59 392K size-64 3840 3747 97% 0.08K 80 48 320K sysfs_dir_cache 3288 3271 99% 0.61K 548 6 2192K proc_inode_cache 3015 2259 74% 0.25K 201 15 804K filp 2304 2043 88% 0.02K 16 144 64K anon_vma 2304 1911 82% 0.02K 16 144 64K dm_tio 2208 1899 86% 0.04K 24 92 96K dm_io 2106 2096 99% 0.58K 351 6 1404K inode_cache 1710 1633 95% 0.12K 57 30 228K size-128 1680 1515 90% 0.03K 15 112 60K size-32 1480 1169 78% 0.09K 37 40 148K journal_head

任意のポインタをいただければ幸いです。

ewwhite · Answer

2003年から2006年にかけて、Red Hat/CentOSシステムで多くのHPSmart Array 6400/641/6i SCSIRAIDコントローラーが同様の方法でハングしていました。 RAIDコントローラーと基盤となるストレージシステムが失われています。 OSがディスクから読み取ることができないため、I/Oが停止し、コンソールログインも失敗します。ネットワークスタックはメモリ内にあるため、システムはpingに応答します。

それのいくつかはドライバーの相互作用です。その一部は、これらのシステムが現在のOSで使用されることを意図していないということです。最新のハードウェアを使用する以外に選択肢はありません（または別のユニットを購入する eBayで18ドル テストする）。これは、その時代に私のサーバーのすべてに起こったわけではありませんが、間違いなく他のサーバーよりもいくつかに影響を与えました。

最終リビジョンは2008年からであるため、結果のファームウェアアップデートはありません。システムBIOSも2008年に更新の受信を停止しました。このストレージの問題またはサーバーハードウェアはanyの方法でサポートされていません。

DL380 G4は、古代のテクノロジー（PCI-X、Ultra SCSIなど）を備えた10年前のサーバーです。そのヴィンテージのデスクトップのサポートを期待しますか？

参照： HP Proliant DL380 G4-このサーバーは2011年でも実行できますか？