web-dev-qa-db-ja.com

インシデント/アウトブレイク時に人/技術者をどのように管理する必要がありますか?

電子メールによるウイルスの発生、Cryptolockerによるファイルの積極的な暗号化、DOS攻撃など、即時の対応を必要とするインシデントがあるとします。

これは、顧客(SLAなど)の観点から評価されるだけでなく、すべてのレベルの管理者や同僚から積極的に評価される方法でこれに取り組む必要がありますか?

次のフェーズがあると思います:

  • 識別
  • 封じ込め
  • 修復

インシデントにより、過去にさかのぼって問題を特定する必要がある場合があります(たとえば、それはWebサーバーの問題ではなく、DOS攻撃です)。多くの場合、十分に熟練した技術者が重複するタスクに取り組み、状況を改善できない場合があります。さらに悪いことに、それらは他の問題を妨げる可能性があります。 (例:a SAN本番と同じLUNで復元し、パフォーマンスを殺す)

質問

多くの場合、問題の解決には多くの可動部分があるため、封じ込めおよび修正プロセスにより多くの構造を与えるためのガイダンスとして、どのプロセスを見ることができますか?

私が考えることができるいくつかのことが含まれます:

  • 影響を受けるユーザー、ビジネス関係者を特定する
  • ソリューションに取り組んでいる人、ベンダーを特定する
  • ソリューションに取り組んでいる人とベンダーの間で、タスクとすべてのタスクのステータスを伝達する
  • 聴衆に適切なステータスを共有する(ヘルプデスク、管理、エグゼクティブ)

これに対処するために、すでに書かれたある種のガイダンスがあるはずです。 「ランブック」のようなものですが、それが何と呼ばれるかはわかりません。検索用語をいただければ幸いです

10

ビジネス継続性を計画します。ミッションクリティカルサービスと非ミッションクリティカルサービスの適切な人を特定する必要があります。どのシステムに最も重要な情報が含まれ、システムをオフラインにするタイミングとしきい値を決定できます。

(wikipedia)の良い概要[ http://en.wikipedia.org/wiki/Incident_management]

ITILには、これに関する多くの情報があります。

ITIL v3で定義されたICMのアクティビティ

  • 識別-インシデントの検出または報告登録-インシデントはICMシステムに登録されています
  • 分類-インシデントは優先度、SLAなどの属性で定義されています。上記で定義された属性
  • 優先順位付け-リソースとサポートスタッフの時間をより有効に活用するために、インシデントに優先順位を付けます
  • 診断-インシデントの完全な症状を明らかにする
  • エスカレーション-サポートスタッフが他の組織部門からのサポートを必要とする場合
  • 調査と診断-過去の既存の解決策が見つからない場合、インシデントが調査され、根本原因が発見されます
  • 解決と回復-ソリューションが見つかったら、インシデントは解決されます
  • インシデントのクローズ-インシデントの終了ステータスを提供することにより、ICMシステムのインシデントのレジストリエントリがクローズされます[5]。

インシデントマネージャーの責任

  • 適切なコンピテンス(リソース)を使用するために、(少なくとも)基本レベルでのインシデント/障害を理解する
  • 分析を開始するのに十分な情報を収集するように復旧チームを駆り立て、インシデントの一般的な概要を維持します(回避策により復旧に焦点を合わせ続ける)
  • 複数の領域(RAN、コアネットワーク、VAS、BSS/OSS)の機能を理解する
  • 緊急の予期しない復旧作業をすぐに開始するチームの優先順位に関するガイダンスを取得する
1
Jonathan