MTTF、MTBF、MTBRおよびMTBF

Question

私は、MTTF、MTBF、MTBR、およびMTBF私たちの運用環境で実行されているHP Gen9サーバーについて）を調査しています。

私の質問の根源は、心配するべきかどうかです。

各サーバーにはハードウェアが混在しているため、適切なデータを取得できないようです。

私の最後の会社では、約2000台のDellサーバーr210 r410 r710を運用していました。平均して1日に約5台のサーバーがあり、なんらかの障害がありました。そのため、サーバーの約0.25％が停止し、再び使用できるようになる前に部品を交換する必要がありました。

私の最後の会社では、すべてがHAペア、N + 2インフラストラクチャでセットアップされていたため、本番環境への影響はありませんでした。サーバーを交換して続行できました

私の現在のオフィスでは、9台のサーバー（HP Gen9、56 VMのHyper-V）を実行していますが、多くの交換部品を手元に置いておらず、データセンターも管理されていないため、何かが故障した場合、交換に約45分かかります。何でも。

私のCTOもITマネージャーも心配しているようです。彼らは昨年約2.5日間のダウンタイムを抱えていました。

ここに間違いはありますか？何をすべきかわからない。

CTOで何かが発生した場合、私の責任ではありません。これは非常に小さな会社で、CTO、ITマネージャー、私（開発者）、および1人のヘルプデスク担当者のみです。

実稼働環境を実行するすべての経験は非常に限られており、多くの設定が非常にジュニアレベルと呼ばれるように設定されています。CTOもITマネージャーも、そこに着く前にクラスタリングについて多くを知りませんでした。彼らはHAなしでDRをセットアップするプロジェクトの真っ最中でした。

ewwhite · Accepted Answer

MTTF、MTBF、MTBR、およびMTBF数値...について心配する必要はありません...なぜそれらが環境の詳細に当てはまるのでしょうか？

サーバーは内部に冗長性があり、運用環境では非常に安定しています。ただし、環境、ディスクアレイ/構成、ディスクの種類、RAM数量、CPU構成、熱特性、電力など）によって異なります。

何らかの形で高可用性を採用するとcanダウンタイムの可能性が減り、障害発生時にワークロードをシフトする場所が提供されます。

これは財務上および運用上のリスクの質問です。

おそらく、スタンドアロンからクラスタに移行するための増分コストは、ビジネスに意味をなさないほど高くなりますか？おそらく、2.5日間のダウンタイム（約99.3％の可用性）で十分です。オフサイト保護と適切なバックアップに焦点を当てる必要があります。すべてのHP Gen9システムは、今日、メーカーの保証下にあるため、お客様はdoで部品にアクセスできます。 RAID、冗長電源/ファン、および安定した電源がある場合、最も重要な領域をカバーしました。

これを財務的な観点から考え、リスクと関連コストの概要を説明し、必要なものに対して説得力のあるビジネスケースを作ってみてください。