web-dev-qa-db-ja.com

根本原因分析の実行

根本原因分析の実行方法について詳しく知りたいです。多くの場合、私たちの部門はユーザーに再起動を試みるように指示します(Windows XPシステム)。これは実際に多くの問題を「修正」します。私が急いでいるとき(そして時々時間給はこれに貢献します)根本原因分析を実際に実行するのではなく、問題を迅速に解決するための回避策を見つけようとするかもしれません。

ほとんどの場合、この情報についてログファイルまたはイベントビューアを調べています。 Sysinternalsツールを使用したり、パケットスニファを実行したりすることがあります。私はおそらくSysinternalsプログラムを必要以上に使用していません。これらのツールをどのように使用するか、いつ、なぜ使用するかについての具体的な洞察も役立ちます。

これは広く開かれた質問だと思いますが、使用している方法論やツールなどについて簡単に説明してください。 SFの多くの管理者は、私がもっと知りたい、より詳細なプロセスを使用しているようです。これが質問を絞り込むのに役立つ場合は、AD環境内のWindowsサーバーとクライアントに関連するツール、ヒント、トリックなどに最も興味があります。

9
jftuga

問題の根本原因を突き止めることは問題によって異なります-ログファイル/ sysinternalsツール/パケットスニファを見る最初の本能は一般的に正しいです。
WindowsシステムでMS悪意のあるソフトウェア削除ツールと優れたAVプログラムを実行することを追加します(そして、Cyber​​Defenderやその他のAV-トロイの木馬マルウェアのようなものがないことを確認します。

Stack Exchangeの人々は、「5つのなぜ」法の支持者です( http://en.wikipedia.org/wiki/5_Whys 、また この素敵な短いPDFそれが実際に動作していることを示しています )これは根本原因分析を行うための非常に価値のあるツールです。


それを超えて、私は2つの広いカテゴリーと、私が通常尋ねる質問/私がチェックするもののいくつかを描きます:

ネットワークに関係のない不思議な振る舞い
例えば。 「言葉が私にぶつかり続ける」

尋ねる基本的な質問:

  1. 何が変わったの?
    (答えに「何も」取らないでください-それは最初の嘘です。新しいソフトウェア、パッチなどはすべて重要です。)
  2. 問題が発生したとき、何をしていましたか?
    (ここでできるだけ詳細を抽出してみてください-上記の例では、「イニシャルを挿入のホットキーを押したところ、プログラムがクラッシュしました」)
  3. 以前に機能したことがありますか?
    (もしそうなら、上記の(1)からのものを見始めてください)
  4. システムで問題を再現できますか?
    (そうであれば、それは良い兆候です。ベンダーへのテクニカルサポートの電話が役立つ場合があります。そうでない場合は、これらの質問の残りについてユーザーのシステムを調べる必要があります。)
  5. ユーザーの環境とあなたの環境の違いは何ですか?
  6. ユーザーのハードウェアが疑わしいですか(メモリテストを実行し、SMARTハードドライブからのエラーなど)を探します)
  7. ここまで進んだ場合(ハードウェアのチェックアウト、ソフトウェアのチェックアウト、ウイルス、マルウェアなし)、1日ユーザーにアクセスしてください。彼らの仕事の習慣を守ってください。
    私の会社では、特定の頻度でマウスをクリックすることに関連する不思議なシステムのロックアップがありました(理由はまだわかりませんが、ユーザーがそれを実行しているのを見て、順番に1日練習する必要がありました確実に再現できるようにするため)

ネットワークに関連する問題

これの多くは似ていますが、より具体的なガイダンスがあります。

  1. 何が変わったの?
    (ええ、あなたはいつもそこから始めます)
  2. 何が壊れていますか?
  3. いつ壊れますか?
    • いつも同じ時間ですか?
    • N日ごとの短い期間?
    • ランダム(それは[〜#〜]本当に[〜#〜]ランダムですか?カレンダーにプロットします...)
  4. リモートサイトに何か奇妙なことがありますか?
    • DNSを見てください-ラウンドロビンの場合、リモート側の破損が発生する可能性があります
    • VPNのもう一方の端について話しているのですか? VPNはどうしたのですか(ログ!)?
  5. ローカルサイトに何か奇妙なことがありますか?
    • ローカルファイアウォールを確認してください
    • 「フィルタリングソフトウェア」を確認してください
  6. 既知の問題があるかどうかをISPに確認してください
  7. ネットワーク全体の既知の問題については、 http://www.internetpulse.net/ のようなサイトを確認してください
  8. ユーザーのマシンをチェックしてください
    (TCP設定など-通常は問題ありませんが、場合によっては問題ありません。)
5
voretaq7

これまでの優れた応答に加えて、次のように追加します。

  • 問題の発生日時を特定します。これは明白に思えるかもしれませんが、これが文書化されておらず、後で誤った仮定がなされた問題が多すぎます。これは、「何が変わったか」のステップとよく相関しています。

  • 問題は再現可能ですか、それとも断続的ですか?再現性のある症状は、断続的な症状よりもはるかに簡単かつ迅速に解決できるため、これは非常に重要です。再現性がある場合は、手順が文書化されていることを確認してください。

  • 症状を特定します。根本原因の兆候である「症状」と、実際の問題/根本原因を区別していることに注意してください。

    1. 症状を再現できる他の活動はありますか?
    2. 他にどのような症状がありますか?
    3. 問題が断続的に発生する場合、問題が発生する原因となるアクティビティを特定できますか?
    4. どのような状況で症状の発生を防ぐことができますか?この問題は、ネットワークアカウントを使用してログオンした場合にのみ発生しますが、ローカルでログオンした場合は問題なく機能しますか?通常のユーザーとしてログオンすると問題が発生しますが、昇格された特権でログオンすると問題なく動作しますか? 1つのシステムでのみ発生しますが、類似しているはずの別のシステムでは症状が発生しませんか?
  • 障害の可能性のある機能コンポーネントに問題をローカライズします。 Webアプリケーションにエラーがある場合、それはアプリケーションコード、Webサーバー、Webサーバーをホストしているオペレーティングシステム、ネットワーク、またはリモートエンドにありますか?これは、リソースが考えられる原因に焦点を合わせるように、この時点で最善の推測です。したがって、これが理論/推測であることを他の人が知っていることを確認してください。

  • あなたの仮定に疑問を投げかけ、仮定と結論をサポートするためにサポートするために経験的データを収集するようにしてください。 xに問題がないことを誰かに伝えるのはかなり悪い気持ちですが、後で実際に問題があることがわかります。通常、間違った解決策がある場合、正しい解決策をサポートするデータがあった可能性があります。

1
Greg Askew
0