web-dev-qa-db-ja.com

SLES 10 SP4(x86_64)-HP Proliant DL380G4-ランダムに応答しなくなる

HP Proliant DL380G4をSLES10 SP2(i586)からSLES 10 SP4(x86_64)にアップグレードするという不幸がありました。インストールはスムーズに完了しましたが、数日間の稼働時間の後、サーバーが応答しなくなりました。サーバーはPINGに応答しますが、SSHおよびコンソールアクセスでさえ失敗します。回復する唯一の方法は、サーバーをコールドブートすることです。

サーバーが応答しない場合、syslogはログを何も表示しません。検索すると、Linuxのさまざまなフレーバーについて報告された同様のインスタンスを確認できました。通常は、サーバーのBIOSまたはファームウェアをアップグレードすることで解決されました。

また、ブートオプションでacpi = htとacpi = offの両方を試しましたが、成功しませんでした。

HPパスポートサイトから入手できるサーバーBIOSバージョンをアップグレードしました このリンクで しかし、これで解決しませんでした。

次に、ストレージコントローラーのファームウェアを ここ からアップグレードしようとしました

サーバーを再起動し、これで問題が解決するかどうかを確認するのを待っています。根本原因とその修正方法に関する提案/推奨事項はありますか?

私が見ているものにかなり近い1つの投稿を見つけることができました buntu 12.04-HP ProLiant DL380 G4-Load Maxes Out/Unresponse

サーバー情報:

Linux hostname 2.6.16.60-0.85.1-smp #1 SMP Thu Mar 17 11:45:06 UTC 2011 x86_64 x86_64 x86_64 GNU/Linux

> lscpu
Architecture:          x86_64
CPU(s):                4
Thread(s) per core:    2 
Core(s) per socket:    1
CPU socket(s):         2
NUMA node(s):          1
Vendor ID:             GenuineIntel
CPU family:            15
Model:                 4
Stepping:              1
CPU MHz:               3200.225
L1d cache:             16K
L2 cache:              1024K


> modinfo cciss
filename:       /lib/modules/2.6.16.60-0.85.1-smp/updates/cciss.ko
license:        GPL
description:    Driver for HP Smart Array Controllers version 3.6.28-24 (d927/s1461)
author:         Hewlett-Packard Company
srcversion:     737C49390DD1F6FB9BC03F7

>slabtop
 Active / Total Objects (% used)    : 331966 / 339552 (97.8%)
 Active / Total Slabs (% used)      : 20306 / 20315 (100.0%)
 Active / Total Caches (% used)     : 98 / 136 (72.1%)
 Active / Total Size (% used)       : 78133.61K / 79253.95K (98.6%)
 Minimum / Average / Maximum Object : 0.02K / 0.23K / 128.00K

 OBJS ACTIVE  USE OBJ SIZE  SLABS OBJ/SLAB CACHE SIZE NAME
 191752 191637  99%    0.09K   4358       44     17432K buffer_head
 44916  44891  99%    0.20K   2364       19      9456K dentry_cache
 35620  35561  99%    0.78K   7124        5     28496K ext3_inode_cache
 15064  15035  99%    0.52K   2152        7      8608K radix_tree_node
  6510   5859  90%    0.18K    310       21      1240K vm_area_struct
  5782   5689  98%    0.06K     98       59       392K size-64
  3840   3747  97%    0.08K     80       48       320K sysfs_dir_cache
  3288   3271  99%    0.61K    548        6      2192K proc_inode_cache
  3015   2259  74%    0.25K    201       15       804K filp
  2304   2043  88%    0.02K     16      144        64K anon_vma
  2304   1911  82%    0.02K     16      144        64K dm_tio
  2208   1899  86%    0.04K     24       92        96K dm_io
  2106   2096  99%    0.58K    351        6      1404K inode_cache
  1710   1633  95%    0.12K     57       30       228K size-128
  1680   1515  90%    0.03K     15      112        60K size-32
  1480   1169  78%    0.09K     37       40       148K journal_head

任意のポインタをいただければ幸いです。

4
watman

2003年から2006年にかけて、Red Hat/CentOSシステムで多くのHPSmart Array 6400/641/6i SCSIRAIDコントローラーが同様の方法でハングしていました。 RAIDコントローラーと基盤となるストレージシステムが失われています。 OSがディスクから読み取ることができないため、I/Oが停止し、コンソールログインも失敗します。ネットワークスタックはメモリ内にあるため、システムはpingに応答します。

それのいくつかはドライバーの相互作用です。その一部は、これらのシステムが現在のOSで使用されることを意図していないということです。最新のハードウェアを使用する以外に選択肢はありません(または別のユニットを購入する eBayで18ドルテストする) 。これは、その時代に私のサーバーのすべてに起こったわけではありませんが、間違いなく他のサーバーよりもいくつかに影響を与えました。

最終リビジョンは2008年から であるため、結果のファームウェアアップデートはありません。システムBIOSも2008年に更新の受信を停止しました。このストレージの問題またはサーバーハードウェアはanyの方法でサポートされていません。

DL380 G4は、古代のテクノロジー(PCI-X、Ultra SCSIなど)を備えた10年前のサーバーです。そのヴィンテージのデスクトップのサポートを期待しますか?

参照: HP Proliant DL380 G4-このサーバーは2011年でも実行できますか?

4
ewwhite