私には、4人のシステム管理者のチームを管理する責任が与えられています。彼らは70以上のサーバーを管理しています。彼らはまだプロセス/手順/実践を書いていません。システム管理についてはあまり気にしません。作業を標準化するため、またはベストプラクティスを選択するために従うことができる標準はありますか?
私は、他の人が飛び込んで法律を制定しないことについて言ったことを支持します。チームは現在70台以上のサーバーを管理しているとおっしゃっていますが、私の最初の質問は次のとおりです。彼らはどれだけうまくやっているか?予定外のダウンタイム、営業日の停止、爆発する直前に問題を修正するための絶え間ないスクランブルがたくさんありますか?それとも、彼らはサービス提供の観点からかなり良い仕事をしていて、平和を損なうために私たち全員に起こるような予期せぬ災害が時折発生するだけですか?
後者の場合、あなたはそれが何をしているのかを知っているように見える良いチームを持っています、そして壊れていないものを修正しようとしないはあなたのチームのバックアップを置かないことの重要な部分です。
前者の場合でも、良いチームがいる可能性があります。優れたチームは、ビジネスからのサポートと関与が不足しているために失敗する可能性があります(新しいキットの予算がない、営業日の停止なしに物事をアップグレードするために必要な深夜の作業の補償に関する合意がない、SLAに関する明確な合意がない)または内部摩擦、または他の多くの非技術的な理由。
もちろん、前者の場合は、チームが不十分なだけかもしれません。
正しい反応は、これら3つのシナリオで激しく異なり、関係する性格によっても影響を受けます。
あなたが良いチームを持っていて、うまく働いているなら、彼らにあなたを導いてもらいましょう。彼らがしていることは正しいですが、あなたは彼らが何をしているのか、そしてどのように行っているのかを理解する必要があります。彼らはあなたが尋ねればあなたに話します、そしてあなたがうまく尋ねれば彼らはおそらくそれをすべて書き留めることによって最も有用な方法であなたに話します。年次レビューと合意された目標は、作業中のシステム管理者の生活にさらに多くのドキュメントを挿入するための良い方法です。基本的に、彼らが現在行っていることはベストプラクティスに近いので、彼らに何かを課すのではなく、相互に役立つ方法でそれを文書化するように彼らに依頼してください。
良いチームがうまく機能していない場合、彼らはおそらく、良いチームになるために何を変える必要があるかを知っています。彼らの話を聞いて、彼らのニーズを正当な要件に変換してビジネスに戻す方法を考えてください。 bothの側面に耳を傾け、bothの側面に「いいえ」と言う準備ができていれば、テクノロジーの世界とビジネスの世界の間の架け橋として多くの価値を追加できます。適切な方法で。
あなたが悪いチームがうまく働いていないなら、あなたはあなたのためにあなたの仕事を切り取ってもらいます。何が悪いのかを特定して文書化することは、懲戒処分を行う上で重要であり、必要に応じて、ビジネスに責任を負わせることなく人々を置き換えることができます。チームのモチベーションとビジネスの信頼性をすばやく獲得するには、手に負えない成果(簡単にうまくいくように微調整できるもの)を特定することが重要です。ここでは、いくつかの迅速な改善が行われたことを示すことができるため、問題のベースライン化が役立ちます。 。
私はやや軌道を外れたように見えますが、正直なところ、ビジネスと人々のニーズを満たすためのベストプラクティスと標準化が存在するのではなく、ドキュメントの卓越性の象牙の頂点であると信じています。真空なので、私の答えは私の相互接続されたアプローチを反映しています。長すぎたらごめんなさい!
ITILから始めることを検討してください: http://en.wikipedia.org/wiki/Information_Technology_Infrastructure_Library
ITILは、いくつかの重要なITプラクティスの詳細な説明を提供し、IT組織がそのニーズに合わせて調整できる包括的なチェックリスト、タスク、および手順を提供します。
ITILの本を読んですべてを知っているとは思わないでください。ただし、開始するのに適した場所です。 ITILを読んだ後、システム管理者に「新しい法則」を伝えた後、飛び込んで、不幸なシステム管理者になる可能性があります。
私が提案するのは、彼らを座らせて、ドキュメントを改善するための最善の方法や、時間の追跡などをカバーする方法について話し合うことです。
システムおよびネットワーク管理の実践、第2版 、Thomas A. Limoncelli、Christina J. Hogan、およびStrata R.Chalupから始めることをお勧めします。あなたとあなたのチームが正しい道を歩むのに役立つ、いくつかの本当に素晴らしいベストプラクティスが概説されています。それは非常に現実的であり、その長さにもかかわらず読みやすいです。
ITILは覚えておくとよいことですが、ITILを初めて使用する人にとっては、手紙に記載されているすべてのことを実装しようとすると、非常に簡単に身動きが取れなくなります。必要なものを使用し、後で必要になる可能性があることを念頭に置いてください。ただし、顧客が期待する仕事を妨げないようにしてください。
他の回答は、ITILのようなものについての具体的な実践的なアドバイスを提供します。これは良いことだと思います。ただし、多くの標準は、実際には賢明なことを実行し、それを繰り返し可能な方法で実行することに帰着することを覚えておいてください。 PuppetやChefなどの構成管理ツールを使用してサーバーを一貫して管理する必要があります。できるだけ多くのメトリックを追跡し、ユーザーに対してできるだけ透過的にする必要があります。質の高いサービスを提供し、顧客やユーザーを満足させるという全体像を一般的に考えれば、問題はありません。あなたが基準について考えているという事実は良い兆候です。
私が最近これらのトピックの多くについて読んだ1冊の本は Web Operations でした。インシデントの事後管理などの方法やメトリックの収集方法について、いくつかの良いアドバイスがあります。推奨。
システム管理者として、チームを次のことに集中させることをお勧めします。
この3つの側面により、チームの生産性が向上し、チームメンバーは交換可能になります。
ITILとCOBITはリーダーの基準です。社外はITILv3を使用していますが、COBITに基づくIT監視もありました。
一見の価値もあります: http://en.wikipedia.org/wiki/COBIT
チームにクイズを出す最も重要なことは、バックアップとリカバリです。それがカバーされていることを確認してください。 Tom Kyteがデータベース管理に関して述べているように、バックアップとリカバリは、間違いを犯すわけにはいかないことの1つです。最初にそれを確認し、特にリスクとコミットできるサービスのレベルを文書化し、現実とビジネスの期待の間のギャップを埋めます。
プロセスをどのように改善できるかについて、システム管理者(場合によっては開発者)からフィードバックを受け取ります。彼らはあなたの一番の情報源であり、他の誰よりも問題やボトルネックをよく知っています。
文書化プロセスがスクラッチになっていることを確認し、可能な限り自動化します。人々は常に、展開とアップグレードに関するメモをWikiに追加することを忘れています。すべてのサーバーがどのように実行されているか、およびさまざまなボックスにインストールされているソフトウェアのバージョンをすばやく確認できるサーバーダッシュボードを作成することを検討してください。
自動化、自動化、自動化(およびすべての自動化を文書化)。