HP Proliant DL380G4をSLES10 SP2(i586)からSLES 10 SP4(x86_64)にアップグレードするという不幸がありました。インストールはスムーズに完了しましたが、数日間の稼働時間の後、サーバーが応答しなくなりました。サーバーはPINGに応答しますが、SSHおよびコンソールアクセスでさえ失敗します。回復する唯一の方法は、サーバーをコールドブートすることです。
サーバーが応答しない場合、syslogはログを何も表示しません。検索すると、Linuxのさまざまなフレーバーについて報告された同様のインスタンスを確認できました。通常は、サーバーのBIOSまたはファームウェアをアップグレードすることで解決されました。
また、ブートオプションでacpi = htとacpi = offの両方を試しましたが、成功しませんでした。
HPパスポートサイトから入手できるサーバーBIOSバージョンをアップグレードしました このリンクで しかし、これで解決しませんでした。
次に、ストレージコントローラーのファームウェアを ここ からアップグレードしようとしました
サーバーを再起動し、これで問題が解決するかどうかを確認するのを待っています。根本原因とその修正方法に関する提案/推奨事項はありますか?
私が見ているものにかなり近い1つの投稿を見つけることができました buntu 12.04-HP ProLiant DL380 G4-Load Maxes Out/Unresponse
サーバー情報:
Linux hostname 2.6.16.60-0.85.1-smp #1 SMP Thu Mar 17 11:45:06 UTC 2011 x86_64 x86_64 x86_64 GNU/Linux
> lscpu
Architecture: x86_64
CPU(s): 4
Thread(s) per core: 2
Core(s) per socket: 1
CPU socket(s): 2
NUMA node(s): 1
Vendor ID: GenuineIntel
CPU family: 15
Model: 4
Stepping: 1
CPU MHz: 3200.225
L1d cache: 16K
L2 cache: 1024K
> modinfo cciss
filename: /lib/modules/2.6.16.60-0.85.1-smp/updates/cciss.ko
license: GPL
description: Driver for HP Smart Array Controllers version 3.6.28-24 (d927/s1461)
author: Hewlett-Packard Company
srcversion: 737C49390DD1F6FB9BC03F7
>slabtop
Active / Total Objects (% used) : 331966 / 339552 (97.8%)
Active / Total Slabs (% used) : 20306 / 20315 (100.0%)
Active / Total Caches (% used) : 98 / 136 (72.1%)
Active / Total Size (% used) : 78133.61K / 79253.95K (98.6%)
Minimum / Average / Maximum Object : 0.02K / 0.23K / 128.00K
OBJS ACTIVE USE OBJ SIZE SLABS OBJ/SLAB CACHE SIZE NAME
191752 191637 99% 0.09K 4358 44 17432K buffer_head
44916 44891 99% 0.20K 2364 19 9456K dentry_cache
35620 35561 99% 0.78K 7124 5 28496K ext3_inode_cache
15064 15035 99% 0.52K 2152 7 8608K radix_tree_node
6510 5859 90% 0.18K 310 21 1240K vm_area_struct
5782 5689 98% 0.06K 98 59 392K size-64
3840 3747 97% 0.08K 80 48 320K sysfs_dir_cache
3288 3271 99% 0.61K 548 6 2192K proc_inode_cache
3015 2259 74% 0.25K 201 15 804K filp
2304 2043 88% 0.02K 16 144 64K anon_vma
2304 1911 82% 0.02K 16 144 64K dm_tio
2208 1899 86% 0.04K 24 92 96K dm_io
2106 2096 99% 0.58K 351 6 1404K inode_cache
1710 1633 95% 0.12K 57 30 228K size-128
1680 1515 90% 0.03K 15 112 60K size-32
1480 1169 78% 0.09K 37 40 148K journal_head
任意のポインタをいただければ幸いです。
2003年から2006年にかけて、Red Hat/CentOSシステムで多くのHPSmart Array 6400/641/6i SCSIRAIDコントローラーが同様の方法でハングしていました。 RAIDコントローラーと基盤となるストレージシステムが失われています。 OSがディスクから読み取ることができないため、I/Oが停止し、コンソールログインも失敗します。ネットワークスタックはメモリ内にあるため、システムはpingに応答します。
それのいくつかはドライバーの相互作用です。その一部は、これらのシステムが現在のOSで使用されることを意図していないということです。最新のハードウェアを使用する以外に選択肢はありません(または別のユニットを購入する eBayで18ドルテストする) 。これは、その時代に私のサーバーのすべてに起こったわけではありませんが、間違いなく他のサーバーよりもいくつかに影響を与えました。
最終リビジョンは2008年から であるため、結果のファームウェアアップデートはありません。システムBIOSも2008年に更新の受信を停止しました。このストレージの問題またはサーバーハードウェアはanyの方法でサポートされていません。
DL380 G4は、古代のテクノロジー(PCI-X、Ultra SCSIなど)を備えた10年前のサーバーです。そのヴィンテージのデスクトップのサポートを期待しますか?