あなたが経験したシステム管理者の事故の面白い話を探しています。 CEOのメールの削除、間違ったハードドライブのフォーマットなど.
自分のストーリーを回答として追加します。
Linuxの "killall"コマンド(指定した名前に一致するすべてのプロセスを殺す、ゾンビの停止に役立つ)とsolaris "killall"コマンド(すべてのプロセスを殺す、システムを停止する、本番サーバーの停止に役立つ)の違いを見つけるのは楽しいものでしたピーク時間の真ん中、すべての同僚に1週間笑わせる)。
私は当時Netscapeの製品であった企業のWebプロキシを担当していました。管理フォーム(Webベースのインターフェース)で遊んでいるときに、ユーザーデータベースの削除と書かれた大きな(そして私はそれが赤であると断言します)ボタンがありました。問題ないと思いました。私がそれを打ったときにそれが私に与えるオプションが何であるかを見てみましょう。オプションがない場合は、確認プロンプトが表示されます。
ええ、確認はありません。オプションはありません。ユーザーはもういません。
そこで、Solaris Sysadmin氏のところに行き、テープからの復元が切望されていると彼が答えたところ、「その箱はバックアップしません」と述べました。
「ええと、また来てください」.
「私はそのボックスをバックアップしていません。バックアップローテーションに追加するもののリストに含まれていますが、まだそれには慣れていません。」
「このサーバーは8か月近く稼働しています。」私は叫びました。
shrug、と彼は答えた。 "ごめんなさい。"
何年も前に、私が働いていた会社に、NT 4.0サーバーのバックアップを毎晩 Jazドライブ (大容量のZipディスクのように)実行するクライアントがありました。
スケジュールされたジョブとして一晩実行されるバッチファイルをセットアップしました。彼らは毎朝ドライブから昨夜のディスクを集め、夕方に出発する前に次のディスクをシーケンスに挿入していました。
とにかく、バッチファイルは次のようになりました(JazドライブはドライブF:でした)...
@echo off
F:
deltree /y *.*
xcopy <important files> F:
とにかく、彼らはある夜、ディスクを入れるのを忘れました。ドライブF:への変更は失敗し(ドライブにディスクがありません)、バッチファイルは実行を続けました。バッチファイルのデフォルトの作業ディレクトリは? C :.初めてバックアップルーチンdestroyを見て、バックアップしたサーバーを確認しました。
その日、私はシステム管理(および例外処理)について少し学びました。
ジム。
PS:修正? 「deltree/y F:\ *。*」。
root @ dbhost#find/-name core -exec rm -f {} \;
私:「入場できませんか?OK。DB名は何ですか?」
Cu:「コア」
私:「ああ」
私は、誰もが二度と二度とそれをしないように、「私が若かったかグリーンであったか」で物語を修飾する方法が好きです。事故は最も熟練したプロにも起こり得ます。
私自身の最悪の瞬間はとてもひどいので、私はまだそれについて動悸を感じています...
SANに本番データが含まれています。会社にとって重要です。「メンター」がパーティションを拡張してディスク領域を解放することを決定しました。これがどこに向かっているのかわかりますか? SANソフトウェアはこれをライブで実行でき、誰も気付かないでしょう。アラームベルが鳴り始めているはずですが、目立たないほど静かでした。彼はそれを "大量の問題はありませんでした。しかし、ここに問題があります。私は「本当によろしいですか?」というボタンをクリックするように指示しました!私は会社に慣れていないので、この人は彼が話していることを知っていたと思いました。良いニュースは、LUNが拡張されたことです。悪いニュースは... Windowsボックスでディスク書き込みエラーが発生し始めたとき、悪いニュースがあることはわかっていました。
茶色のパンツを履いていて良かったです。
昼食時に1TBのデータが消えた理由を説明しなければなりませんでした。本当に悪い日でした。
それは実際には良い原則です。何か疑わしいことをする前に、何か問題が発生した場合に経営陣に説明しなければならないことを想像してください。あなたの行動を説明するための良い答えを考えることができないなら、それをしないでください。
Nagiosは、ある朝、重要ではないサーバーに接続できなかったと営業時間が始まると私にpingを送信しました。わかりました、サーバールームにハイキングします。これは古いサーバーで、02年に購入したDell 1650です。1650にハードウェアの問題が発生していることはわかっていました。 PFYが電源ボタンを刺します。何もない。 DRACがなければシャーシに電源を入れずにBMCログを検査する方法がないため、もう一度押して、5秒間押し続けると「強制的に電源がオン」になります。これにより、BMCのエラー保護が無効になります。
マシンはPOSTを開始してから、再び終了します。私はその上に立って、「煙のにおいがする」と行きます。 Railsでサーバーを引き出し、電源装置の1つが暖かくなっているので、PFYがサーバーを引き出してボックスを閉じます。 「いいえ、それは電源の煙ではなく、マザーボードの煙です。」
再度ケースを開け、焦げ臭いの原因を探します。インダクターコイルとコンデンサーがマザーボードの電圧レギュレーターから何かを吹き飛ばし、溶けた銅とコンデンサーのグーをすべてに吹き付けて、大量のものを短絡させ、基本的に大きな混乱を引き起こします。
私にとって最悪の部分は、焦げたマザーボードと焦げた電源の匂いの違いを認識するのに十分なハードウェアを喫煙していたことを認識していたことです。
3日前(真剣に)に学校のサーバーにリモートでログインし、Windows Server 2008ファイルサーバーにService Pack 2をインストールしました。
私は、必要な再起動を夜遅くにスケジュールすることにしました。このとき、教師は年末のレポートカードを完成させることにログオンしていません。私は次のように入力しました:
23:59 "shutdown -r -t 0"
...それはうまくいったかもしれません。
しかし、私は次に自分自身を推測しました。 「シャットダウン」構文は正しいですか?入力して使用方法のヘルプを表示しようとしました
シャットダウン/ h
...そしてすぐにRDP接続が失われました。あわてて、構文をググってみた。クイック検索の結果、Server 2008バージョンのシャットダウンには/ hスイッチが含まれていることがわかりました。これは(ご想像のとおり)マシンを休止状態にします。
教師たちは数分以内に私に電話をかけ始め、彼らが取り組んでいたレポートカードを開くことも保存することもできなくなったと報告しました。私はオフサイトでサーバールームがロックされていたので、校長に直接電話して、マシンの電源を入れるプロセスを彼女に説明する必要がありました。
今日私は自家製クッキーをお詫びの形でみんなに持ってきました。
以前の仕事では、社内で送受信されたすべてのメールをログに記録してアーカイブする優れた自社開発システムを使用していました。
メールボックス全体を吹き飛ばしましたか?問題ない!誰かが1週間、1か月、1年前に送信したが、誰が送信したのか、または件名が何であったのか思い出せないメールを探していますか?問題ない! 2月から特別なフォルダにすべてを再配信します。
ある時点で、会社のCEOが、競合他社と疑わしい内部の営業担当者との間を行き来するメールを監視する必要が生じました。そのため、毎晩実行するスクリプトをセットアップし、前日の関連メールをCEOに配信しました。問題ない!
1か月後、ダブルプラスの緊急の問題の言葉が高値から降りてきました。 CEOが$ OTHERCOMPANYに送信されたメールのリストを読んでいたときに、次のように思われました。
To: somebody@$OTHERCOMPANY
From: CEO
Subject: CEO has read your message (subject line here)
当然、CEOは重要な人物であり、すべて忙しいため、Outlookで「領収書を送信」ダイアログをすべてクリックすることはできず、クライアントにすべてを送信するように設定していました。監視フィルターによってキャッチされたメッセージの1つに、受信確認要求が設定されていました。 Outlookが何をしたと思いますか?確かに「秘密の」監視を盗聴した。
次のタスク:メールフィルターにルールを追加して、CEOからその会社への送信開封確認メッセージをブロックします。はい、それが最も簡単な方法でした。 :)
ああ、私がまだ足を濡らしていたのは、約10年前のことです。すべてのプログラマーのコンピューターにバッテリーバックアップをインストールする喜びがありました。彼らはまた、停電を警告して適切にシャットダウンするソフトウェアをロードしたかった。
だから私はそれを自分のコンピューターにセットアップして、最初にすべてをテストし、すべてがうまくいくことを確認しました。電源コードを外すと、画面にメッセージが表示されます。 「外部電源が失われ、システムのシャットダウンが開始されました」。
だから、ちょっと、クールだと思った。しかし、奇妙な理由で、覚えていません。そのメッセージがネットワークメッセージとして送信されたため、社内の200台以上のコンピューターすべてがそのメッセージを受け取り、100人以上のユーザーがプログラマーになりました。
ええ、マスフリークについて話します!!
しばらくその場所で頭を低くしていた!
Solarisマシンで「sys-unconfig」コマンドをよく使用して、マシンのネームサービスをリセットします。アドレス、およびrootパスワード。私はユーザーシステムにいて、ビルドインストールサーバーにログインし、(rootとして)何かを調べた後、別のマシンにログインしたことを忘れた(説明のない「#」プロンプト)「sys-unconfig」コマンドを実行しました。
# sys-unconfig
WARNING
This program will unconfigure your system. It will cause it
to revert to a "blank" system - it will not have a name or know
about other systems or networks.
This program will also halt the system.
Do you want to continue (y/n) ? y
Connection closed
#
その「接続が閉じられました」というメッセージはゆっくりとパニックになりました...そのコマンドを実行したときにログインしていたマシンは何でしたか。
これの最悪の部分は、同僚が私に与えた苦労ではなく、1か月後に同じことをしたということでした。
私はかなり良いものを持っています。確かに、それは私のシステム管理者としての時代より前でしたが、それでもまだ技術に関連していたので、私はそれを追加したいと思いました。
当時、私はUSAFのsatcom/wideband techとして働いていました。最近専門学校を卒業した私は、韓国に駐在していた。駅に到着して間もなく、しばらくの間そこにいた「ビッグガイ」と一緒に南下し、実際に実際の(つまり、「生産」)機器で作業する機会が生じました。
私は乗組員と一緒に降りて、熱心で若い技術者として、LIVEの軍の音声とデータトラフィックを通過する実際の機器に手を差し伸べるという期待にかなり興奮していました。
私をゆっくりと始めるために、彼らは私にマニュアルを手渡し、予防保守セクションに向かい、いくつかの大きなデジタルマルチプレクサーで満たされた4つのラックの方向を教えてくれました。設備は十分に簡単でした。私たちは技術学校で同じ設備をカバーしました。
マニュアルの最初のページを読んでください。 「デジタルマルチプレクサーに電源を投入します。両方の背面スイッチをオンの位置に切り替え、機器の電源が入るのを待ってから、テストを開始します。」見上げてみると、すでにAPPLIEDのパワーがありました!
私は確かに困窮していた。どうすればいいのか分からなかったので、頑張って「うーん。ちょっとここで負けちゃった」先輩を見つめました。
「いやいや、大丈夫です。チェックリストのその部分は無視してかまいません。」次に、彼は私の顔の表情に気付いたので(学校では絶対に教えられないので、チェックリストのどの部分も無視しないでください。そうすれば死と破壊が確実に起こりました)彼は真剣な顔つきをしました顔を合わせて言った、「その部分だけを無視してください。残りの部分は、手紙に従ってください!
忠実に、私はマルチステップを実行しましたPM指示、あさりとして満足し、彼らがこのように低いランクの(スマートではありますが)技術にこの重要な仕事をさせてくれたことを誇りに思います。
これらの巨大なマルチプレクサの5番目と6番目の予防保守チェックリストのどこかで、自分の周りの活動レベルの増加に気づき始めました。電話が鳴っていて、人々は素早く動いていた。奇妙なルックスが交換されていました。
最後に、私を倒した上級技術者が率いる人々のグループが私のところに駆け寄りました。
「ねえ!データトラフィックが大幅に停止し、作業中のラックまでの経路を特定または追跡しました。奇妙な現象は見られませんか?」
(その時点で、彼は、私がPMを実行していたマルチプレクサの最初のグループに彼女を連れて行ったトラブルシューティング担当者の別の1人に遮断されました。)
「ホーリーナッツ!それらはオフになっています!彼はオフになっています!!!!」
手短に、彼らがマニュアルの最初のステップを急いで走るのを見ていました、「両方の後部スイッチをオンの位置にして...」上級技術者が終わったとき、彼は私のところにやって来て、信じられないほど私が何を考えているのか尋ねましたの、重要な機器の電源を切ることによって。
私は頭がおかしくなり、私がフォローしていたチェックリストを彼に手渡し、私がまったく逸脱していないことを誓った。私がそれに従ったことは、彼が指示したとおり「手紙通り」だった。
しばらくして、彼は笑って問題がどこにあるのかを指摘しました。
マニュアルでは、予防保守チェックリストの最後のステップは次のとおりです。
「プローブの最終的な読み取り値を記録し、フロントパネルを拭いて、ほこりや粒子をすべて取り除いてから、両方の背面の電源スイッチをオフの位置にしてください。」
:)
私は誰かのためにシステムをリロードしていました、そして手動バックアッププロセス中に私は彼に「あなたが使用する他のプログラムはありますか?」と質問しました。そして、「あなたがコンピュータ上で何か他に重要なことはありますか?」
彼は「いいえ」と何度か言った。
ドライブを確信してフォーマットしました。
約30分後、彼は「オーマイゴッド」と言って、彼の頭に両手を置いた。
彼は専門のプログラムで10年以上にわたって本の脚本に取り組んでいたことがわかりました。これは、プログラムがユーザーデータをプログラムファイルディレクトリに保存するために使用されていたときに戻ってきました。
うわぁぁぁぁぁぁ。
彼は私に怒っていなかったが、それは地味な感じでした。
これは一種のシステム管理者の事故です。システム管理者が大量のマシンをポイントAからポイントBに物理的に運搬しなければならない場合(AとBは常にエレベーターのない建物内の階段のいくつかの階段で隔てられているようです)。その日のn番目の旅行で、私は地下室の荷積みレベルから3フライト上空で息を止めて降りてきた誰かとおしゃべりをしましたそして...まあ、あなたは推測した...それで私のグリップをわずかに失った。それは間違いなく井戸を真っ直ぐ下に突入し、それが底に達したとき、ええと...そのための機能ではそれほどではありません!完全に回収できる部品:2スティックのRAM、1枚のフロッピードライブ、および1枚のISDNカード(神はHermstedtの技術者に祝福を!)。それ以外のすべては、ひび割れたり、ガタガタしたり、小さな破片になったりしました。
神の恵みによって、誰も下を歩いていませんでしたが、私にとっては幸いにも上司が最初だったので、仕事を続けなければなりませんでした。 1時間かそこらでとても気分が悪くなった。
道徳:重力は常に勝つ!
私の個人的なお気に入りは実際は私のものではなく、とても嬉しく思います。 こちらをご覧ください。
これは私には起こりませんでしたが…
私は、クライアントから提供されたLinuxマシンで動作するソフトウェアを作成する会社で働いていました。基本的にはマシンを「引き継ぎ」、仕様に合わせて完全に構成し、すべての管理と監視を行います。本質的に、私たちは10〜15人のシステム管理者のチームであり、何百もの顧客のために何千ものサーバーを管理していました。間違いは間違いなく起こりました。
私たちのチームの1人がサーバー(バックアップだと思います)でいくつかの問題を発見し、そのサーバーでfsckを実行することにしました。彼はすべての関連サービスを停止し、システムに最近バックアップが取られていることを確認してから、fsckを実行しましたが、ファイルシステムがマウントされていると不平を言いました。私たちはリモートでリモートアクセス(DRAC、ILOなど)がなかったので、彼はfsckを実行できませんでしたが、注意深くファイルシステムをマウントした状態で安全に実行できると確信していました。
彼は自分のルートパーティションでfsckを実行して自分で試してみることにしました。その結果、予測可能な結果が得られました。彼はルートパーティションを破損し、起動できなくなりました。
混乱して、彼は行き、私たちのチームリーダーと話をしました。リーダーは、あなたがそれができないことをかなり確信していると言い、チームメンバーは「確かにできる!」どのHISルートパーティションが完全に破損していますか。
最終結果?チームメンバーのテストにより、顧客データは失われませんでした。 2日間の従業員の生産性は失われましたが、それははるかに価値があり、顧客のマシン上のデータよりはるかに少なかったです。そして、記録のために?マウントされたドライブでfsckを実行できますが、これはデータを確認するためだけです。修理しないでください。それはチームメンバーの間違いでした。
-
自分のストーリーを追加するために、私は同じ会社で働いていて、ユーザーパスワードをリセットしようとしていました。私たちのシステムは、古いパスワードハッシュを追跡し、パスワードの複製を拒否したため、必要なパスワードに設定することを拒否しました。メカニズムはシンプルでした。データベース内の最新のハッシュに対してパスワードを検証しました。
(そして、記録のために、それは共有アカウントだったので古いパスワードである必要があり、誰もが新しいパスワードが実用的でないことを知っていることを確認すること)
ユーザーデータベースに移動して新しいレコードを削除し、古いレコードを使用することにしました。すべてSQL(古いバージョンのSybaseを実行)だけなので、簡単です。まず、レコードを見つけなければなりませんでした。
SELECT * FROM users_passwords WHERE username='someuser';
彼が残したかった古い記録を見つけました。その前にもう2つありました。私は賢く、古いレコードより新しいものを削除することにしました。結果セットを見ると、データベースの古いパスワードはID#28、新しいパスワードはID#数千(非常にビジーなシステム)でした。これは簡単です。古い行はすべて28以上だったので、
DELETE FROM users_passwords WHERE id > 28;
単純な行のプルーニングを実行し、「212,500行が影響を受ける」ことを確認することほど悪いことはありません。幸い、2つのマスターデータベースサーバー(ユーザーID付き)がありましたが、Sybase(少なくとも、私たちのバージョン)は自動レプリケーションをサポートしていなかったため、古いレコードを自動的に消去しませんでした。 users_passwordsテーブルのダンプを取得して再インポートするのは簡単なことでした。それでも、かなり大きな「oh f ** k!」瞬間。
型付きkill 1
をルートとして。 init
と彼女のすべての子供が亡くなりました。そして、彼らのすべての子供たち。など、おっと。
入力するつもりはkill %1
私がやったことに気づいた後、私は[〜#〜] big [〜#〜]ウールベール分類機のコントロールパネルに走り、緊急停止ボタンを押しました。私はそれを制御するソフトウェアを殺したばかりだったので、これはマシンがビットにそれ自身を引き裂くのを止めました。
顧客のライブ顧客データベースでのWHERE句のないDELETEステートメント。
私のお気に入りのもう一つ:
システムにコンピューターとローカルレーザープリンターをセットアップするとき、両方をコンピューターのUPSに接続するという優れたアイデアがありました。デスクトップUPSに接続されているときに、ローカルレーザープリンターで印刷しようとしたことがありますか?さて、あなたが知らなければ、それはすべてのアンプを引っ張る傾向があります...これはコンピュータを再起動します...そして、印刷ジョブは決して終了しません...!
これまでに電話を受けました: '印刷するたびに、コンピューターが再起動して印刷されません!!!'?
おっと!
JFV
停電の最中に、UPSが構成された負荷の112%で稼働していることがわかりました。当時ジェネレーターで実行していたので、これはそれほど問題ではありませんでした。
そこで、UPSの電力使用量を削減するためにバックアップ電源ケーブルを引き回しました(2つあり、1つは他よりはるかに大きい)。サーバールームを実行するネットワークスイッチに到達しました(これは、会社のすべての内部サーバーを備えたサーバールームであり、顧客側のサーバーは別のサーバールームにあります)。スイッチは、3台の電源装置を備えた大規模エンタープライズクラススイッチでした。電源はN + 1だったので、スイッチを実行するために必要なのは2つだけでした。
ケーブルを選んで引き抜きました。残念ながら、他の2つは1つの電源タップに接続されていましたが、接続されている2つの電源装置に負荷がかかるとすぐに電源が切れました。その後、システム管理者はパニックに陥り、3本目のケーブルを接続しました。スイッチが起動しようとし、スイッチの負荷全体が単一の電源装置に供給されました。電源装置がシャットダウンする代わりに、顔から12インチではない火花のシャワーで爆発し、サーバーのラックにジャンプして戻ってきました。
思わず横にジャンプしようとしたが、残念ながら左側には壁があり、右側には非常に大きな6'4 "施設の男がいた。 Compaqラック(前面が薄いメッシュのラック)全体をラックに入れたり、施設の担当者に触れたりすることはありません。
私の経歴のある時点で、私が働いていた会社での法的調査により、特に明記されない限り、すべての電子メールを「この日」から保管しておく必要があります。交換環境(毎日1 TB)の毎日の完全バックアップを約1年保存した後、スペースが不足し始めました。
取引所の管理者は、電子メールの8コピーごとだけを保持することを提案しました。これを行うために、数日分のExchangeデータベースを復元し、必要な電子メール(調査のフラグが立てられた特定の人々)を抽出して、再アーカイブしました。すべてのバックアップについて、メールの8日ごとにこれを行いました。エクスチェンジに「削除済みアイテム」がデータベースに8日間保持されるパラメータセットがあったため、8日目が選択されました。
彼らが各アーカイブを完了した後、私は戻って、彼らがアーカイブしたものより古いバックアップをすべて削除しました。
TSMにはこれを行う簡単な方法がないため、バックアップデータベースからオブジェクトを手動で削除する必要があります。
今日と対象の日付との差を使用して日付を計算することにより、特定の日付より古いすべてのバックアップを削除するスクリプトを作成しました。ある日、約1か月分のバックアップを削除する必要がありました。ただし、日付の計算を行うときは、入力ミスをして、日付を2007年6月10日ではなく7/10/2007と入力し、スクリプトを実行しました。余計な1か月分のデータを誤って削除しましたが、これは非常に重要な訴訟の一部でした。
その後、スクリプトにいくつかの手順を追加して、データを削除することを確認し、何を削除するかを示します...
幸いなことに、彼らは私たちが一生懸命保存していたデータを使用することさえありませんでした。
長い一日またはパフォーマンスを追跡して巨大なメインフレームを調整した後(すべてのスタンバイバックアップサイトが実際に再起動され、完全に同期されることに同意するまでに数時間かかる獣を知っています)私は指を伸ばし、満足のいくシャットダウンと入力しました-pラップトッププロンプトで、ふたを閉じ、シリアルケーブルをメインフレームから引き離しました。ラガーの素敵な冷たいグラスを見越して。
ラップトップがまだXを表示していても、突然メインフレームがスピンダウンする音が聞こえてきました。
マシンが再び完全にオンラインになるのを待っている間に、ラップトップでACPIを機能させる時間があると判断したので、ラップトップをシャットダウンする気になりません。
誰かのアカウントを誤って削除してしまい、削除しようとしたアカウントの名前と混同してしまいました。 Opps
クールな部分は、彼らが何が起こったのか全く知らなかったことです。彼らがログインできなかった電話を受け、ペニーは私が削除したアカウントについて落ちました。
電話をかけている間、私はすぐに彼らのアカウントを再作成し、古いメールボックスをそれに再接続しました(ありがたいことにExchangeはメールボックスをすぐに削除しません)、それを古いユーザーファイルに戻しました。
次に、私がリセットしたばかりのパスワードを忘れたと非難しました:)
Gentoo Linuxボックスのtar.gzファイルを誤った場所に誤ってインストールしたため、ファイルがいたるところに残っていました。これは1999年頃のことでしょう。当時は19でした(以下のコメントをありがとう)
私はオタクなので、手動で各ファイルを処理する作業からスクリプトを作成することにしました。
だから私は試しました:
tar --list evilevilpackage.tar.gz | xargs rm -rf
Tarがプログラムが使用しているすべてのディレクトリを一覧表示していることに気付くのにそれほど時間はかかりませんでした。
CTRL-C! CTRL-C! CTRL-C!遅すぎる!すべてがなくなった、時間を再インストールします。幸い、箱には重要なものは何も含まれていませんでした。
この事故は起こりませんでした...しかし、言及する価値があります:
使用頻度の高いデータセンターに送られ、新しい回線の帯域幅テストを実施しました。私は分界室/ IDFに行き、テストルーター用のラックの1つにスポットを見つけ、接続を行い、テストを開始しました。残念ながら、実稼働中のボーダールーターが次のラック(ほぼ同じレベル)にあるだけでなく、テストルーターと同じメーカーとモデルであることにまったく気付かなかった。
テストが完了すると、電源スイッチをオフの位置に押し始め(...スローモーションで想像してください...)、私が圧力をかけているのと同じように、私がルーターに気づいていたことを確認しましたオフにするのは本番環境でした。私の心は止まり、私はほとんど…まあ、あなたの想像力を使ってください。
私はデータセンターのMDF不気味で淡い見た目を残しましたが、同時に仕事ができてうれしいです!
以前の人生の小さめの部分として、会社のファイルサーバーであるネットウェア4:11ボックスを管理しました。入力が必要になることはほとんどありませんが、必要な場合は、リモートコンソールウィンドウを開きました。
いつもDOSを使い慣れていたので、終わったら自然に「Exit」とタイプしていました。 Netwareの場合、「exit」はOSをシャットダウンするコマンドです。幸いなことに、最初にサーバーを「ダウン」しない限り、シャットダウンできません。(ネットワーク/クライアントが使用できないようにする)したがって、コンソールで「終了」と入力すると、「最初に入力する必要があります」降りる前に」
「1:コンソールセッションで「exit」と入力し、2:「Down」と「Exit」を素直に入力した回数を確認してください。
そして、電話が鳴り始めます.....
LOL
私が最後に働いた場所、私の同僚は彼の子供たちをサーバールームに連れていました(なぜですか?私にはアイデアがありません!)。
彼はそれらがサーバーから遠く離れていることを確認し、彼は5歳の人に、サーバーや特に電源スイッチには触れないように説明しました。
実際、彼はドアのすぐ近くにそれらを持っていました...(これがどこに行くのかわかりますか?)
少年はサーバーの電源ボタンに触れなかった...いいえ、それは説明するのが簡単すぎるでしょう。代わりに、彼はドアの近くにあった大きな赤いボタンを押しました...サーバールーム全体の電源をシャットダウンするボタン!!!
電話回線がすぐに点灯し始め、なぜExchangeやファイルサーバーなどが利用できないのか不思議に思いました...それをCEOに説明しようと想像してみてください!
-JFV
起こらなかった別の話(ふphe):
私たちは、テープドライブへの増分バックアップを毎日真剣に行っていました。
たまたま、他の人に送るデータが入ったテープを書きました。彼らは「あなたのテープは読めない」と言った。実際、どちらもできませんでした。または実際には任意のテープ。
別のテープドライブを購入し、取り付けるまで息を止めました。
この話の教訓。必ずバックアップをテストしてください。
私はかつてAPC UPS監視ソフトウェアと戦いました。私たちは小さな会社でしたので、小さなUPSがいくつかあり、それらを監視するためにさまざまなサーバーがセットアップされていました。ほとんどのサーバーはLinuxでしたが、いくつかはWindowsを実行しており、APCソフトウェアはWindowsのみであるため、サーバーが使用されました。
ただし、当時のAPCソフトウェアは、通信しているUPSがPCの電源もオンにしていると想定するようにハードコードされていました。これはこのサーバーには当てはまりませんでしたが、停止するように指示するには遅すぎることがわかりました。また、残念なことに、主任プログラマーは会社の製品をパートナーにデモンストレーションしていました-これはWebベースのアプリであり、APCソフトウェアをシャットダウンしたくない同じサーバー上で実行されていました...
私は北米のワイヤレスプロバイダーで働いており、私のグループの人が作業指示書を実行するためのトレーニングを行っていました。私は最初の2晩は滞在していました(メンテナンスウィンドウの間にすべてを行います)が、彼は元気で、自分で習得する必要があると言ったので、彼に任せて、携帯電話とポケットベルをつけたままにしました。翌朝の午前8時に起きたときに、ログインして構成を確認しました。
変更点は BlackBerrys の新しいIPアドレスのプールを追加することでした。追加するプールは約10000アドレスでした。これを行うには、すべてのコール処理を実行するブレード上のプロセッサアドレスを指すルートをルーターに追加します(本質的にはプロキシのように機能します)。また、プロセッサにログインしてIPプールを構成し、ワイヤレスユーザーが使用するIPプールをリンクします。ただし、テストでは通常、これを1つのプロセッサで構成し(実際に電話を起動してすべての機能をテストし)、構成を必要な実際のプロセッサに移動します。
2週間早送りします。BlackBerryの断続的な問題に関する問い合わせがたくさんあり、彼らが見たいくつかのBlackBerryが共通のプールを循環しているように見えますが、そうではなかったとコントロールセンターから電話を受けました何が起こっていたのか本当にわかります。これが私の同僚が2週間前に追加した新しいプールであることを認識するのに約5分しかかかりませんでした。また、ルーターに2つのルートがあり、1つはテストプロセッサへのルート、もう1つは適切なコールプロセッサへのルートであることを確認するのに時間がかかりませんでした。これは実際の状態であり、テストプロセッサへのルートを削除するのを忘れ、適切なルートに取って代わりました。
基本的に、BlackBerryはネットワークに接続し、プロキシに接続してIPアドレスを取得し、プロキシはプールから誤ったルートのアドレスを割り当て、BlackBerryは [〜# 〜] rim [〜#〜] リレー。応答はテストプロキシにルーティングされ、ユーザーに返されることはありません。つまり、基本的に接続性はありません。
幸運にもBlackBerryはリレーに接続できない場合、ネットワークに接続/再接続するという動作をしているため、一部のRIMデバイスは、正常に動作するようになるまで最大数時間サービスがありませんでしたプール。考え直して、作業を再確認したところ、この人にとっては新しいプロキシ構成しか確認していませんでした。以前はこの人がバックボーンチームにいて、ルーティングが彼のものであったため、ルーティング構成を確認することはありませんでした。おっとっと!
私はそれを修正してその午後に彼に電話をかけました、彼の日はうまくいきました、しかし私は申し訳ありませんでしたが、私はあなたを丸一週間台無しにしようとしています。 1年後、ビールを中心に物語が浮かび上がります。
ラックの後ろに押し込まれたタワーサーバーをつまずいて、途中でメインのCiscoルーターの背面に頭をぶつけました。したがって、電源コードが Catalyst 65 の前面の電源装置に実際にどの程度緩く取り付けられているかがわかります。
うん。サーバールームのフックにヘルメットを取り付けました。私の名前が載っています。
新しいシステム管理者にService Managerアプリのツアーを提供していました。 「このサービスを停止する必要がある場合は、このボタンをクリックしますが、日中は絶対に停止しないでください。」あなたは彼女のマウスボタンがどれほど敏感であるか信じられないでしょう!
2分後、サービスは再開され、誰も気づいていないようでした。
叔母は私に彼らのコンピュータを修理するように頼んだ。彼らはそれが起動しないだろうと言って、それは2週間そのようなものでした。 BIOSかOSのどちらかだと思いました。
私は彼らのコンピューターの前に座った。電源ボタンを押すようにしゃがみました。見上げる。
BIOSは合格しました。それは良い。
OSが起動しました。それは良い。
入力デバイスに問題があるのではないかと考えて、マウスを動かしました。入力デバイスに問題はありませんでした。
私は彼女のワープロを開けました。走った。
プリンターの印刷テストを行います。印刷しました。
この時点で、私は立ち上がって、コンピューターに何も問題がないことを(私を見ていた)叔母に話しました。彼女は私が座る前はそうではなかったと主張した。
私は家族に自分がそうだと主張することができますgood、私はそれの前に座っているだけでどんなコンピュータでも修正できるということです。
私が最初に主任管理者にシステム管理者として雇われたとき...最初の週に私たちは真新しいデルサーバーを受け取りました... Windows Server 2003 ...私が真夜中にサーバールームに密かに呼ばれるまで、それは彼の小さな赤ちゃんでした。ある土曜日の夜、マルウェアの多数のインスタンスをクリーンアップしました。彼は、アンチウイルスなしで展開する前に、Webでサーフィンを行っていたからです!!!
マルウェアのクリーニングは、私が多くの経験を積んだものですが、これはサーバーだったので、安全を確保するためにフォーマットと再インストールを行いました。
私はそれについて彼に一言も言わなかった。彼は王室を台無しにしたことを知っていた。
システム管理のことよりも個人的なスクリプトのことですが...
私は、現在再生中の情報を Banshee から取得し、プログラム "xte"を使用してキーボードイベントとして文字ごとに入力するマクロのように機能するPerlスクリプトを作成していました。このようにして、特別な対話なしでプログラム内で機能させることができます。これは、入力したとおりです。
まあ、私はほぼ完璧にコーディングしました。いくつかのランダムゲームでテストすることにしました。チャットを開始するためのキープレスは shift + enter。これを行うために、私はそれを押したままにする必要がありました shift、 押す enter、次にリリース shift。残念ながら、私は急いで「リリースシフト」を忘れました。スクリプトを実行したところ、シフトキーがロックされるという、陽気な副作用が発生しました。 「問題ありません。ターミナルに行き、手動でラインを入力してシフトを解放します」と思った。残念ながら、誰もが知っているように、Linuxでは大文字と小文字が区別されます。私はそれを入力しなければならなかったので、それはすべての大文字でコマンドを受け入れません。 「カウンターシフト」なんてできませんでした。
これにより、5分のスカベンジャーがWebサイトにアクセスし、マウスを使用して個々の小文字をターミナルにコピーして貼り付け、オフにするために必要なコマンドを作成しました。
大きな問題ではありませんが、約10年前の「私の顔の卵」の朝は確かです。私は古いハードウェアインベントリを調べ、ハードウェアをオフロードする準備ができているディスクのイメージを再作成していました。これを行うための最も効率的な方法を見つけようとして、Norton Ghostのコピーと適用するイメージを使用してCDRomを作成しました。マシンの電源を入れ、POST中にCDをドライブに挿入しました。マシンはCDから起動し、自動的にイメージを再作成します。うまくいきました。
問題は、CDのコピーを作成していたときに、より多くのマシンを並行して実行できるようになったときに発生しました。私は最後のCDの書き込みを終了し、デスクトップコンピューターの電源を切り、その日家に帰りました。さて、あなたは翌朝何が起こったかを推測することができます。私は入り、自分のPCのスイッチを入れて、コーヒーを作りました...
何らかの理由で戻ってきたとき、私のマシンはドメイン外にあり、パスワードを受け入れていません...
私は何が起こったのかを考え出し、その日に他の男たちが到着したときに罵倒し始めました。ええ、彼らは私にしばらくそれを生きさせさせませんでした。
当時、私がとても環境に恵まれていたとき、誰もそれを持っているようには見えなかったので、ユーザーのPCにAVソフトウェアをインストールする必要がありました。そのため、40〜50台のデスクトップを突っ張るのではなく、リモートインストールの方法を理解するのに少し時間を費やしました。リモートインストールは完全に実行され、ログインできないという不満を言うためにさまざまなマネージャーが私のオフィスに立ち寄るまで、すべてが問題なく見えました。
数人の個人がマシンにSymantec AVをインストールしており、これは私が使用しているMcAfeeソフトウェアとまったく共存できず、ログイン試行後にマシンをロックすることが判明しました。
幸い、ログインしようとする前にマシンにアクセスした場合、リモートでサービスを無効にすることができたため、上級管理PCをすべて再構築する必要がなく、問題を修正するためのポイントを獲得できました...
私の従業員の1人が行った...サーバーに明確にラベルを付ける理由の完璧な例:
従業員をコロコロに送り、セカンダリMSSQLデータベースサーバーを再構築しました(現在のデータはありませんでした)。主なものは積極的に使用されていました。このストーリーの残りの部分はおそらく予測できます。そこで、彼はサーバーを再起動し、インストールを開始してドライブを再フォーマットしました。電話をかけて、プライマリデータベースサーバーが応答しなくなった理由を尋ねるだけです。 (ドー)
鉱山はたった6か月前に起こりました。 PHP/MySQL Webアプリケーション用の新しいサーバーに切り替えたところです。私はOSを選択する必要があったので、私が最もよく知っている/使いやすいOSであるUbuntuを選択しました。
Cronによって毎時、毎日など実行される多数のバックアップスクリプトがありました。移行は完全に成功しました。 MySQL DBを古いサーバーから新しいサーバーに転送してIPを切り替えている間、ダウンタイムは約2分しかありませんでした。
しかし数週間後、私はMySQLのコマンドラインで作業していて、不要になった古いテストレコードをいくつか削除していました。私は最初はプログラマー、次にsysadminなので、最初にセミコロン(;)を入力してからコマンドを入力する習慣をつけました。さて、DELETEクエリにWHERE句を追加しようとしたときに、誤ってEnterキーを押しました。 ...おっとっと。
Query OK, 649 rows affected (0.00 sec)
「大したことではない」と私は思った。 「1時間ごとのバックアップが4分前に終了しました。全部で3つのレコードが失われた可能性があります。すぐにバックアップディレクトリに移動して復元しました。問題は解決しました。
...次に、バックアップのタイムスタンプに気付きました。 17日経過しています。他にバックアップはありませんでした。私はシステムに入ったすべてを一掃したばかりで、それから17日も経っていません。
Ubuntuのcronデーモンにバグがあり、名前にドット(。)が含まれているスクリプトファイルが実行されないことがわかりました。エラーは発生しないため、問題の証拠はありません。実行を拒否するだけです。すべてのバックアップスクリプトの名前にはドットが含まれています。以前は完全に機能していましたが、現在は機能していません。
私が学んだ教訓:
思ったよりずっと前に、私は会社の技術者であり、アプリケーションをインストールするコンサルタントと協力しました。ハードウェアはDEC VAXであり、HSC50ストレージサーバーを使用しました。コンサルタントはインストールにほとんどの時間を費やし、彼らが去った後、HSC50のビットごとのコピーユーティリティを使用してシステムディスクを空のディスクにバックアップすることにしました。コピーが完了して再起動を試みた後、ソースディスクとターゲットディスクの名前を逆にし、システムディスクにビットごとに空のディスクをバックアップしたことがわかりました。
システムディスクでVMSを再構築し、アプリケーションの大部分を再インストールすることができましたが、うまく機能しなかったと思います。それ以来、コピー/バックアップなどを行っている場合は、続行する前にソースディスクを書き込み保護していました。 (書き込み禁止スイッチがなくなったので、コマンドbeforeを見て、Returnキーを押します。)
監視システムにライセンスファイルがないことを示すWindowsマシンからのアラートを調査するために呼び出されました。コマンドプロンプトを開いて問題の調査を開始したところ、基本的なWindowsコマンドがそこにさえないことがわかりました。
スクリプトをリモートで実行したシステム管理者は、delコマンドを使用して、ルートとサブフォルダーで指定されたフォルダーを、環境変数で指定されたフォルダーで削除するスクリプトを作成しました。環境変数が設定されていなかった場合は、パーティション全体が警告なしに削除されました。
言われたとき、システム管理者は非常に驚いたので、彼らは自分のノートブックで上記のスクリプトを実行してアクションを確認しました。
驚いたことに、サーバーを再起動するまで、Windowsは問題なく動作していました。けちな監視ソフトウェアだけが不平を言いました。
これは政党のセカンダリActive Directoryサーバーでした。おっとっと。
一部のBitTorrentダウンロードを高速化するために、バイパスルールをファイアウォールに追加します。使用されたバイパスルールが安定していないシステムであることが判明し、ファイアウォールがダウンしました。これは、市内のすべての学校のインターネット接続の境界ファイアウォールでした。さらに悪いことに、再起動はファイアウォールのハードドライブを停止させるのに十分でした。面白い?それほどではありません。壮観な失敗?絶対に。
私はタッグチームの努力でした。
管理者から、DBAの1人をサーバーにログインして、何らかのクリーンアップを実行するように指示されました。彼はクエリを実行し、すぐに両方のページャーがオフになりました。
結局のところ、クリーンアップは実際にはデータベースのドロップであり、開発サーバーの1つで実行されるはずでした。しかし、受け取った指示から、これは本番環境で発生するはずのマイナーなクリーンアップタスクであると思いました。
幸い、データの損失を最小限に抑えてバックアップから復元できました。
教訓:本番サーバーをいじるときに何をすべきかを常に正確に知っていることを確認してください。不確実性がある場合、それはあなたが聖典を取得するのが最善です。
OK。取得するため &
USキーボードでは、Shift-7を押します。スウェーデン語のキーボードで取得するには、Shift-6を押します。では、スウェーデン語のキーボードでShift-7を押すと何が得られますか? /
。
数年前、スウェーデンのレイアウトはそれほど一般的ではありませんでした。私の好みは、USレイアウトを使用することでした。ある日、ディレクトリ内の一連のファイルとサブディレクトリを削除したいと思いました。
私は打つ:
rm -fr *
しかし遅すぎたので、すぐにヒットしました:
Ctrl-C rm -fr * &
それとも私ですか?まあ私はしませんでした。私がスウェーデン語のキーボードを使用していることに気付くのに数秒かかりました。何が起こったかをデコードするには、上記を参照してください。そして、その災害は事実でした。
それは私がコマンドを学んだ日でした:
dd
基本的にディスクからテープに最終的に到達できましたが、それは徹夜でした。翌日、とにかくシステムが再インストールされようとしていることを知りました。
幸運でしたが、いくつかのことを学びました。
ほとんどのサーバー群がまだWindows NTだったとき、使用されている主要なリモートメソッドはpcAnywhereでした。 「よく知られている」バグがあり、pcAnywhereを使用するとサーバーが突然再起動することがあり、エンドユーザーにこのよく知られているバグが通知されました。
バグは、pcAnywhere(少なくとも私たちが使用していたバージョン)の[ホストから切断]ボタンの横に[ホストの再起動]ボタンがあったことです。だから時々...:D
200マイル離れたWin 2kサーバーにVNCで接続し、IPアドレスを追加しました。システムトレイのネットワークアイコンを右クリックし、[プロパティ]ではなく[無効にする]をクリックしました-DOH!... ....車に乗る。満足していない!そのメニューオプションに「本当によろしいですか」と表示された場合のみです。
マイク
2002年夏。
誤って展開したIE 6.0で、1日の途中で強制的に再起動して16,000ユーザーにした。
実は私は間違いを見つけて、これまでで最速のタイプをしました odadmin shutdown all (すべてのデプロイメントサーバーを停止するTivoliコマンド)。
LinuxおよびFreeBSDの場合hostname -s
は、「短いホスト名を表示します。これは、最初のドットでカットされたホスト名です。」と表示されます。
Solaris 9では、hostname -s
は、ホスト名を「-s」に設定します。
そこで、私の仲間の管理者がスクリプトを実行して、Solaris 9で実行されている10個のミッションクリティカルなOracleデータベースサーバーを含む、120のシステムすべてを監査しました。
for Host in `cat all-hosts`; do
ssh $Host "hostname -s"
done
私たちのすべてのOracleサーバーがすぐに故障しました。この失敗の速度は本当に驚くべきものでした。このミスから回復するのに約20秒かかりましたが、すでに遅すぎました。すべてがダウンしていた。
皮肉なことに、データセンターで数日前に大規模な停電が発生し、「停電/停電」スプレッドシートを更新して、将来の停電から迅速に復旧できるようにしました。
私ではなく、一緒に働く人。彼らは、プロセスフィールドに*
を含むAVサーバーでポリシーを作成しました。簡単に言えば、名前*
を含むプロセスに対して読み取り、書き込み、実行を許可しないでください。
その後、このポリシーは1,500台のサーバーに複製され、RDPおよびその他のプロセスがシャットダウンされました。これを修正するには、すべてのサーバーのハードドライブを1つずつマウントして、ポリシーを削除する必要がありました。 15人のチームで48時間。
私はプログラマーなので、私の過ちはすべてStack Overflowにあります。ただし、以下は、私が目にしたシステム管理者のエラーの一部です。
Windows NTドメインのすべてのユーザーからログオン許可を取り消します。 (PDCのビルトイン管理者以外は、残念なことに、ドメインを設定した請負業者だけがパスワードを知っていて、彼らはなくなってから長い間経っていました)実際にこれがどのようにして達成されたかはわかりません。私は数時間座って仲間の開発者とチャットしなければならなかったことを知っています。
誤ってメンバーサーバーを削除します [〜#〜] ou [〜#〜] 。テープからの復元が行われている間、それはさらに数時間チャットでした。
私たちの管理者は、すべてのドメイン管理者にCDとフロッピードライブへのアクセスを許可することを目的としていました。 (当時、私たちはSecureNTを使用してリムーバブルメディアへのアクセスを制御していました。)悲しいことに、彼はグループメンバーシップを元に戻し、代わりにリムーバブルメディアのすべてのユーザーに完全なドメイン管理者権限を与えました。私がこれを発見したのは、あるはずのユーザーが作成していたはずのプロダクションSQLデータベースで一部のテーブルが表示されたためです。問題の管理者に言ったとき、彼の顔の変化を見て楽しんでいました、いや、それは正しい方法で、ああ、****です。ありがたいことに、深刻な害はありませんでした。
ハ、私の最初の本当に大きな事故は、開発サーバーで小さなSVN管理パネルを作成していたときでした。これは、内部の「開発」Webサイトの更新にのみ使用される、完全に安全でないソフトウェアです。
SVNリポジトリが破損することがあるので、PHPファイルを呼び出すボタンを作成しました。これにより、要求されたSVNディレクトリ全体がクリーンアップされ、次のようになります。
<?php
$directory=$_GET['dir'];
$result = Shell_exec("Sudo rm -Rvf /".$direcory);
echo $result;
?>
それを見ない人のために-私はShell_execで "$ directory"のスペルを間違えたため、システムが "Sudo rm -Rvf /"を実行してしまいました...最初は、Webページは削除に時間がかかっていると思いましたリポジトリ内のすべてのファイル。約10〜15分後、ファイルシステムの半分以上が破壊されたことがわかりました。
おっとっと。
素晴らしい元雇用主の話。罪のない人を保護するために、詳細の一部が変更されています。私は雇用主に問題を抱えていました。彼をFredと呼んでいます。Fredは、生産性の問題をたくさん抱えていましたが、自分自身を贖い、いくつかの特権を取り戻したようです。唯一の問題は、彼の特権が復元されたときに、プロビジョニングスクリプトのバグが彼にいくつかの追加の特権を与えたことでした。
私は大きなプロジェクトの真っ最中だったので、アプリケーションに必要なWindows修正プログラムをパッケージ化するようフレッドに依頼しました。 (これは、人々が今日ほど信心深くパッチを当てなかったブラスター前の時代でした)。フレッドは私たちのラボでテストを実行し、すべてが正常に動作します。
次に、フレッドはいくつかの質問をします。
"Who should I Push it to?" (Mind you, this is a patch for some custom VB app)
"Everyone", I respond
"Ok, what time should it start?"
"How about 2AM?", I answer. (Figuring I'd have time to look over everything before I left for the day!)
それでは次に何が起こるのでしょうか?彼は私たちのソフトウェア配布アプリを使ってすべての人にプッシュするジョブをセットアップし、製品がサポートするすべてのプラットフォームのチェックボックスをオンにすることもできます。次に、過去の約12時間に行われた午前2時のように、午前2時に開始時刻を設定します。
結果?すべてが再起動し、いくつかのVB5ランタイムパッチをインストールしようとします。約2:45 PM金曜日の午後。すべて。
全部? 40,000台のPCのように?はい。 3,000台のWindowsサーバー?はい。 300 HP、Sun、IBM Unixボックス?はい。 AS/400クラスター?はい。
何らかの理由でADの担当者がアプリケーションを無効にしたため、再起動しなかったのはWindows DCだけでした。聖なる悪夢。一週間の拭き取りの後、私はまだ雇われているとは信じられませんでした。
パンチライン?フレッドは彼がもう何も傷つけることができなかった仕事に巨大な昇進を得ました。
多分、何よりも深夜の脳おならのほうが多いでしょう。
開発者の1人がSolarisボックスでJavaプロファイラを実行する際に問題が発生しました。プロファイラはLibcのコピーが2つあり、1つは_/lib
_、もう1つは_/usr/lib
_。数回のld
sの後、すべてが_/lib
_を指しているため、それらを_/usr/lib
_から移動しました。
しかし、突然何もうまくいきませんでした。 ls
、cd
、cp
、mv
は使用できません。約20分「あら、あら、あら」と言ったところ、開発者の1人が現在実行中のEmacsのコピーをそのボックスに持っていて、バックアップされたLibcの_/lib
_コピーを開いて書き込むことができました。元の名前でバックアウトします。そして出来上がり!すべてがうまくいった。学んだ教訓;午前2時に、希望する場所にLibcを残し、開発者の要求に変更を加えないでください。
ずっと前に持っていました。一部のOracle ODBCブリッジのデプロイメント中に、約500のユーザー投稿のパスを変更する必要がありました。
とても簡単な操作です。残念ながら私はそれらの引用を忘れていました。不思議な文字化けしたメッセージ(ODBCインストール失敗))が発生した後、人々は鳴り始め、マシンの再起動は必要なだけだと思っているようです。
もちろん、以前の他のいくつかのインストールはPREPENDED(!!!)システム変数内の一部のプログラムファイルパス(スペースとすべてを含み、引用符なし)なので、新しいパスはc:\ Program(もちろん、存在)で停止しました%ProgramFiles%は完全に無視されたままです)。システムなし、システムなし32、シェルなし。したがって、ログオンスクリプトもありません。
再起動した人はネットワークにアクセスできなくなり、自動化されたスクリプトで損傷を修復することはできませんでした。もちろん、不満を言うユーザーのところに行き、周りを見回してパスを確認するとすぐに、それがわかりました。
約30分で、最も標準的なパス値を持つ別のスクリプトが作成され、全員にメールを送信する準備ができました(メールは引き続き機能しました)。ユーザーは、パッチが本物であることを確認するために電話をかけましたが、奇妙な理由で暗号化されたexeを送信するために使用されていなかったため、ほとんどの人は何が起こっているのかさえ認識していませんでした。
最初のバージョンは乱雑でした(実行のたびに新しいセミコロン)が、可能なすべてのパス値をログに記録したので、可能なパスを含むデータをすぐに手に入れました。所定の位置に。
全体として、それは約45分しか続かなかった、そして私は幸運にもすべてを大丈夫に戻した一人だった。しかし、それでも、破損したパスがポップアップしたとき、私はまだ責任を取る準備ができています;)
私の最高のものは、バックアップサーバーが管理が行き届いていないときに生まれました-私の上司は、それをオフィスに置いておくべきか、サーバールームから離れた場所に置くべきか(そして何らかの理由でバックアップを行わないか)どうか、または帯域幅を大幅に節約するには、サーバールームにインストールする必要があります。このリンボ状態が数ヶ月存在したことを思い出しているようです。
私たちのWebサーバーには、Webサイトのストレージ用にRAID 5アレイがありました。 3つのドライブの2番目のドライブが故障する前に、しばらくの間、低下モードで実行されていたようです(不明な理由や覚えられない理由で通知されません)。私は徹夜でサーバーを元に戻しました。私たちの顧客は、自分のウェブサイトが消え、自分のバックアップから復元する必要があったことを不満に思っていました。特に自分のバックアップを持っていなかった人。
上司が私に尋ねた質問は、「RAIDアレイはどのようにしてそのように故障するのでしょうか?想定されていなかったのです!」 「ウェブサーバーのバックアップがないのはなぜですか?」
しかし、レッスンは気が遠くなることはありませんでした。メールサーバーへのアップグレードにホットスペアを備えたRAID 1アレイを含めることを提案したとき、上司は協力的でした(通常、彼が行っていたであろう追加コストについて議論するのではなく)。そしてもちろん、バックアップサーバーは短時間で適切に機能していました。
Exchange Server 2007の「メールボックスの削除」機能と「メールボックスの無効化」機能の違いについてはどうですか。特に、破損したデータベースを処理するために全員の古いメールボックスを削除する場合はどうなりますか?
...
Exchangeサーバーに復元する...面白くない... ExchangeサーバーとActive Directoryを復元する必要がある...面白くない。
金曜日の午前11:00にそれを行う...貴重です。
私は、サイトのRedHat 5 Webサーバーのプライマリパーティションに空き領域を確保しようとしていました。私はLinuxに比較的慣れていませんでしたが、長い間DOSを使用していました。
/ binフォルダー全体を別のパーティションに移動し、運用Webサイトを取り出して、アクセス可能なシステムコマンドがないままにしました。私はびっくりしました。これらの役立つ実行可能ファイルをすべて移動したので、名前の変更、コピー、移動など何もできませんでした。
ありがたいことに、私はブートディスクを使用して自分の作業を元に戻すことができました。
私はRAID 5を初めて使用しましたが、それがどのように機能するかについてまだ学んでいました。当時、私は非常に小さな会社で唯一のIT担当者でした。誰もがアクセスしたすべてのファイルは、1台のサーバーにのみ保存されました。サーバーのスペースが少なくなり、RAIDアレイにドライブが3つしかなかったため、4番目に追加するとスペースと応答性が向上すると考えました。これは営業時間中に行いました。私は、時間外メンテナンスの概念を学習していませんでした。
アレイは再構築を開始し、36時間で完了すると述べています。それは長すぎると思いました。再構築の優先順位を制御するスライダーを見つけ、最低の設定に設定しました。中程度に設定しました。時間は8時間になりました。ハードドライブのライトが少し速く点滅していましたが、それでもまだ80GBのデータだけでは長すぎると思っていました。優先度を高く設定しました。ハードドライブのライトが点灯し、「それはもっといい!」と思った。次に、使用していたGUIが応答を停止しました。リモートでボックスに接続しました。再起動しようとしましたが、サーバーが見つかりませんでした。
廊下にいる人々がサーバーに乗れなかったと不平を言うのを聞き始めました。サーバーにログインして、何が起こっているのかを確認しました。空白の画面が背景に変わるまで5分かかりました。ログインプロンプトが表示されるまでにさらに5分かかりました。キーを押すたびに、登録に5分かかりました。サーバーに何も応答しないように優先度を高く設定しました。アレイの再構築には2時間かかりました。幸い昼食の1時間前だったので、そんなに気にかける人はいませんでした。その時の私のマネージャーは本当にクールな女性で、それは大したことではないと言いました。ヘッドデザインエンジニアは私に平均的な見た目を与えました。弾丸を2時間発汗させた。学んだ教訓。
私は従業員に彼のラップトップが遅いと不平を言ったので、ハードドライブの断片化をチェックしました。ドライブをデフラグしようとしても、十分な空き容量がないため、効果はありませんでした。私は一時ファイルをクリーンアップしてみました(なぜ私が一時的にサーバーにデータを移動しなかったのかわからない)、彼のOutlook.pst全体を彼の電子メールのバックアップであり、実際の電子メールではないと思って愚かに削除しました。彼は私を許しましたが、決して忘れさせません。
(これは何年も前に大学を卒業した直後に起こりました。私は今よりはるかに有能です。)
非常に愚かな間違い。私は自分のLinuxワークステーションで多数のファイルを処理するスクリプトを書いていましたが、それが大量のファイルである限り、それがどのようなファイルであるかは問題ではありませんでした。そのため、テストを行っていたディレクトリに/etc
をコピーすることをお勧めします。問題が発生した場合は、コピーを削除して/etc
をテストディレクトリに再度コピーしました。それはしばらくの間うまくいき、それから私はタイプした
rm -rf /etc
の代わりに
rm -rf etc/
OK、心配する必要はありません。自分のワークステーションでまだ何かをすることができ、別のワークステーションまたは何かからコピーすることでそれを復活させることができると思いました。または、1日の終わりに再インストールします。まず、何かを飲んで、会社の方針により、画面をロックしました。くそー、私はロックを解除するために私のパスワードが必要です、そしてそれは/ etc/.....にあります.
愚かな間違い:
/etc
の代わりにetc/
と入力する/etc
の使用Unixボックスの「bin」ユーザーを誤って削除したことがありました。もちろん、ユーザーを削除すると、そのホームディレクトリも削除されます。
ビンのホームディレクトリは何でしょうか。
/置き場
数社前は、すべてを実行するメインサーバーとしてWindows NT 4ボックスがあり、バックアップとしてミラーリングされたハードドライブがありました。
私はいくつかの重要なファイルを誤って削除しました。問題なくボックスを再起動し、SCSIメニューからディスク2を選択すると、1分以内にバックアップを実行してコピーを実行できます。
次に、ミラードライブを再構築するコマンドを開始しました。 Windowsには新しいC:とD:が搭載されていましたが、巧妙なミラーリングソフトウェアがそれによってだまされることはありませんでした。ソースとターゲットのSCSI ID番号を使用し、喜んで1-> 2をコピーしました。
アダプテックありがとうございます!
週末、全員が建物の外に出ると、サーバールームに行き、新しいテープをオートチェンジャにロードして、週末のフルバックアップを行います。 ACは寒すぎると思い、電源を切ります(サーバールームは壁に取り付けられたACのある部屋でした-深刻なものに対する資金はありません)。それで、テープをロードし、TBUがバーコードを正常に読み取れることを確認してから、頭を出します。
次の日、私は二日酔いで(朝、週末です!)朝起きて、私の電話を見て、SMSメッセージ "$ server going down"の束を確認します。次に、もう1つは「メインUPSがダウンしています」。
私は鍵を手に取り、オフィスまで車で行き、サーバールームを開けて、そこに60cほどあり、すべての機器がオフになっていることを確認します。
UPSと40台以上のサーバーと通信機器は言うまでもなく、ACを起動する前に、いくつかのファンを引き寄せて熱気を送り出しました。そして週末はもちろんオフィスで過ごします。そして、周囲温度が高すぎる場合にすべてをうまく引き下げることができるスマートUPSユニットのすべての神に感謝します。それ以来、私は常にパーカーを持ち、ACをオフにしない
10年以上前、私はSOCKSプロキシを必要とするプロジェクトに取り組んでいました。私は、SOCKSプロキシに加えて、NAT、DHCP、その他いくつかの優れたインターネットゲートウェイ機能を提供するWinGateというプログラムを使用していました。これは、Windowsがインターネット接続を共有する前だったため、WinGateを使用すると、ダイヤルアップモデムをイーサネットネットワークと共有できます。
ソフトウェアをインストールし、SOCKSクライアント機能の作業を開始しました。その日の後半に、インターネット接続が失われました。突然、それは止まり、社外には誰もアクセスできなくなりました。 ISPに電話をかけたところ、接続はすべて問題なく見えました。ルーターは正常に動作していました。何が悪いのかわからなかった。 TCP/IPについてある程度の知識があったため、ある時点で売り込みましたが、何も進んでいませんでした。
翌日、私たちのIT担当者は、DHCPサーバーがルーターのアドレスを誰かのマシンに提供しており、誰もがどこにも行かなかったデフォルトゲートウェイにそれを使用していたことに気付きました。その日の後半にIT担当者が私のオフィスにやって来て、私は尋ねました。彼は言った、「ええ、それはあなたです!」
WinGateはデフォルトでDHCPサーバーを実行し、以前のアドレスが期限切れになった最初のクライアントにルーターアドレスを提供していました。しばらくは真っ赤な顔をしていた。
若い頃、私は「助けになる」ことを目指し、128 kbit/sの回線を介して250 MBのデータを同時に86の異なるサイトにコピーしようとしました... 営業時間中。私がこれをしている間、なぜすべてがそんなに時間がかかっているのかと尋ねる人々を耳にしました。
言うまでもなく、私は転送を殺しました、そして(幸運なことに)誰もそれが私であることを知りませんでした!
私たちは、Unixボックス上のクライアント用のターンキーIVRシステムを構築しました。かつて、開発者はすべてのコードを/ develに置いていました。開発ディレクトリとボックスを削除して、日曜日の午後にサーバーを空港に連れて行くように頼まれました(私の休日!)。私は急いで/ dev/*を削除しました。すぐに私の間違いを見て、少し座って考えました。カーネルにシステムデバイスへのフックがない場合、システムが停止するかどうかわからないので、同じマシンの/ devディレクトリを調べ、mknod [c | b]メジャーマイナーを実行して、キーボード、tty、scsiドライブを復元しました。次に、fd0とnullが他のマシン/ devにフロッピーを作成し、ローカルにマウントしてコピーして残りを取得しました。
それでも私が物事を放置した場合どうなるかはまだわかりませんが、再起動時にそれが不幸だったと確信しています:)
教訓-開発ディレクトリは/ develと呼ばれません。
これは私が最初のサポートジョブを開始したばかりのときに発生しました。接続の問題について不満を言った後、ユーザーのマシンの1つに接続しようとしている顧客の2003サーバーに接続していました。
基本的なトラブルシューティングについて話し、静的IPがあることに気付いたので、これをDHCPに設定することから話し始めました。サーバーのLAN接続のプロパティを開いて、何をすべきかを彼女に話しているときに使用しました。彼女に試してDHCPに戻した後も、静的IPが残っているため、接続を無効にして再度有効にするように頼みました。
この時点で、私は実際に設定を変更することなく、サーバー上で彼女に言っていることをすべて実行していました。LAN接続を右クリックして無効にするように彼女に要求したところまで、私もそれを続行しました。
たった0.5秒で、今行ったことを実感しました。
他のエンジニアが私に笑いを止めるのに10分ほどかかりました。そのうちの1人は、顧客サイトでNIC=を再度有効にするために1時間ドライブする必要がありました。
以前は、それぞれが明確に定義された開発およびテストサイクルを持つ一連のデータベースサーバーの世話をしていました。私たちの役割は、開発者が提供した変更を、テスト環境のドキュメントを使用して、実際に稼働する前に顧客のテストのために顧客のテスト環境に導入することでした。その一環として、お客様のテスト環境は、ライブ環境の最新のバックアップから構築されました。
これは、顧客が変更を承認した後に、変更をライブ環境に反映するプロセスとともに、すべて適切に文書化されました。
私たちはチームで新たなスタートを切り、彼が数か月間私たちと一緒にいた後、運命的な夜まで彼が自分でそれを行うまで、いくつかの変更サイクルに彼を座らせました。顧客のテストは順調に進み、顧客は喜んで変更を承認しました。
その後、新たなスタートは、変更をテスト環境に展開するたびに彼が行ったこととまったく同じことを行い、他の人が行ったドキュメントに従う必要がないと確信しました。手順(1)、以前のバックアップから再構築...
翌朝、お客様は前日の作業が欠落していることに気付き、何が起こったのかを知るのに時間がかかりませんでした。幸い、データベースでは変更ログが有効になっているため、すべてのアクティビティを回復できました。新しいスタートは、少なくともドキュメントを評価し、それに従うことを少なくとも学びました。
先週、良い新しい出来事が起こりました。
私が開発しているテストプラットフォーム用に一時的なDNSサーバーを構築してもらい、この新しい一時的なDNSサーバーを指すように特定のテストドメインを更新するように依頼しましたが、テスト用ではなくライブレコードを更新しました。
突然、この1台のサーバー(幸いなことに、新しいボックスなのでリーズナブルな仕様)が、ほぼ500万人のユーザーのほぼすべてのDNSリクエストに対応しています-1日で4億のリクエスト! -幸い、TTLは24時間しかなかったため、現在はほとんどが排出されています。
まったく異なる次元ですが、それでもシステム管理者の事故です。
申し訳ありません:これを取得するには、イタリア語の俗語を理解する必要があります。翻訳できません。あなたはそれを暗記する必要があります
イタリアのナポリにあるSolarisサーバーで何かを修正するように頼まれました。 rootパスワードが必要でしたが、当時はあまりイタリア語を話しませんでした。彼らはそれが何であるかを私に話すのをためらったようでした。最後にそれらの1つが半分ささやきました:
- sticazzi
私は言った:ああ、 'sticazzi'。それをどのように綴るのですか?そして彼に紙とペンを渡しました。
1年後、私はM.*o B.*
再び(こんにちは!-これを読んだ場合)。当時、私のイタリア語ははるかに優れていました。私はもう少しイタリア人を知っていると彼に言いました。
それは大変な笑いでした。
ストーリーの教訓:ルートパスワードを知らない言語で尋ねる必要がある場合、一度与えられると、同時に、笑い、顔を赤らめ、侮辱されているように見えます。
みんな 'rm -rf /'はある時点で偶然です。鉱山は、最後のデータ構造の割り当ての期限が切れる2日前に、ホームディレクトリ内の余分なファイルのいくつかを削除しようとしていました。
専門的に私はこれまで壊滅的なねじ込みを起こさないように十分な能力を持っています。
これは私には起こりませんでしたが、それは本当に素晴らしい話だと思います。
これらの人たちは、私が知っているように、この会社が持っているいくつかのInformixデータベースのデータベースを保持していた古いSolarisフルタワーサーバーの1つで作業していました。これは基本的なユーティリティ企業だったので、データ量を想像することができます。
サーバーを介したいくつかの構成がフロッピーディスクにコピーされ、サーバーからサーバーに渡される点がありました。サーバーで作業した後、フロッピーディスクを取り出して次のフロッピーディスクに移るだけです。
Sysadminグループの別の人に付き添われて、この人はランダムなことについて話しているときにこれらの構成に取り組んでいました。彼はステップを終えたので、ボタンを押してフロッピーを取り出しました。
-「待ってください。ボタンを離さないでください!」
彼がもう一度見たとき、彼はエラー時にリセットボタンを押していましたが、イジェクトボタンを押していませんでした。彼がそのボタンをリリースした瞬間、会社のデータベースシステム全体の電源がすぐに切れました。 (これらのボタンは瞬間的なものだと思いました...しかし、これがストーリーの流れです。)
したがって、すべてのシステム管理者は、部長に電話をかけるために行っていることをやめ、「システムにログオフするよう全員に伝えます。この男は指でサーバーに接続されているすべての出来事を探しています。
Debianボックスの/etc/network/interfaces
に静的IPアドレスを設定しているときに、somebodyが誤ってIPアドレス行とゲートウェイ行のIPアドレスを切り替えました。
コアスイッチのIPを「盗む」とどうなるでしょうか。
ああ、ある日、誤ってPostgreSQLデータベースを削除し、ログファイルから回復しました;)
ありがたいことに、私があなたと共有しようとしていることから簡単に回復することができました。あなたは悪名高いのを聞いた
rm -rf /
deltree/y/s/b \
私の問題は、これを入力して、それが間違っていることを知っていたので、バックスペースキーを押しに行きましたが、太い指で触れて、Enterキーを押しました!文字通りわずか2秒で自分のしたことに気づいたので、操作を中止するためにctrl-cを繰り返し押し始めました。私がそれを止めたときまでに、ファイルシステムの半分はなくなっていました。
救助のバックアップ、私の友達!再起動以外のダウンタイムはありませんでした。ある意味では、素晴らしいバックアップが用意されていたので、その日は本当にラッキーでした。
システム管理の初期の頃に、私は小売店の在庫プロセス(棚卸し)を行うための新しい方法を発明しました。私はたくさんのラップトップを持ち、それらにバーコードスキャナーを接続して、すべての記事をペンで紙に書いて行ったときのように、プロセスを通常の10倍速くしました。 Symbol PDT DOSハンドヘルド端末もいくつか購入しました。 Symbol端末の電池の寿命を延ばすために、自分で電池パックを作り、配線を手動で接続しました。その夜と翌朝、私は自分をとても誇りに思っており、オフィスを歩いているクジャクが私がいかに賢いかを言っているのを誇りに思っていました。
悪夢は、サーバーにデータを送信して在庫とリストの計算と比較を行うときに始まりました。バッテリーパックが1つ追加されたSymbolデバイスの1つは、ワイヤの1つが切れていて、デバイスに長時間エネルギーがなかったために点滅していました。
現在、約100人の雇用者の仕事がすべて水に落ちました。 13個または15個のデバイスとそれらのリストのすべてを持っていなかった場合、それらの目的は何ですか?不足している在庫を確認するにはどうすればよいですか。
私の災害をより詳しく説明するために、私たちはその年の休暇がほんの数日しかなかった。店を閉めて棚卸しをするときで、そのために多大な費用と労力がかかります。
私にとって幸運なことに、その再試行の私たちのディレクターとシェフは、その年のコンピューターであったように、合理的で受け入れられた在庫リストでした。
その後は、作業が進行している間、およびインベントリプロセスが完了した直後に、常に2つのデータのコピーを作成します。もちろん、これ以上自慢することはありません。
私はサーバーが30〜40のサイトしかホストしていない、初心者/趣味のよいシステム管理者なので、これはそれほど悪くありませんでした。/bin/xxxディレクトリ内のすべてのファイルの実行権限を削除していましたが、すべてで始まりました。
明らかな行動をとって
chmod -R a-x .*
ワオ。 binディレクトリの実行権限を削除すると、クリーンアップが非常に困難になります。データセンターの技術者は、修正するためにライブCDを起動する必要がありました。一番良かったのは、修正方法を説明する必要があったことです。最悪の部分は、彼らが私を笑うのに十分なほど知っていたことです:P
インターネットの初期の頃は、すべてをSGIチャレンジSサーバーで実行していました。ある時点で、私の知らないうちに、「アート部門」がIKONにデモレンダリングプリントサーバーを注文しました。ある朝歩いて、おかしな演技、サーバールームへの管理者の呼び出し、定期的な診断などを行い、最後に電源である必要があると言います。もちろん予備はありません。私は本社に戻ります-貸し出し機を見て、それがSGIでもあることに気づきます-それを開き、電源を外し、サーバーを再起動します-ビンゴ!私たちはスペアを一晩注文し、AMに担当者が現れてデモの良さを尋ねます。FedExが現れるまで30分間hummada hummadaを実行し、電源装置を再度交換して、デモボックスをドアから外に出します。今日の仕事すべて。
昔、データパーティションのマウントポイントを変更することにしました。そこで、新しいディレクトリを作成し、/ etc/fstabのマウントポイントを変更して、以前にマウントされていたディレクトリを削除しました。
問題は、nautilusが進行状況バー(4Kbの削除)を表示したときに、パーティションがまだ古いディレクトリにマウントされていることに気付いただけです。ありがたいことに、大きな損傷が生じる前にキャンセルすることができましたが、一部のファイルは失われました。
コロケーションでのメンテナンス中に、プライマリDNS電源ケーブルを抜きました。当時はセカンダリを交換していたので、ラックを閉じる前にケーブルを引きずっていたに違いありません。私たちのすべてのサイトは急速に落ち始めました、そして私は同じ場所に戻って愚かなものを元に戻す必要がありました。
私の最初のインストールタスク(何年も前、DOS時代)で、公的機関のディレクターに属するコンピューター上のほとんどすべてのシステムファイルと半分のアプリケーションファイルを誤って削除しました。しかし、それは私のせいではありませんでした。 C:/ TEMPフォルダー内の重要ではないファイルを削除して、スペースを解放しようとします。削除を開始します...しばらくすると、ルートとDOSフォルダーからなじみのある名前が画面上にスクロールアップします...ハードCtrl + Breakを終了します...しかし、遅すぎます...
これは、FATファイルシステムでクロスリンクされたファイルの問題を知るためのより難しい方法でした。
ミネソタ州北部にエンジニア向けの低温試験施設があります。約10年前、そこにいたT1は死んでしまいました。高速回線を設置したため、その施設からメインのデータセンターにサーバーを移動しました。ミネソタ州中央部の農家が農機具を持って繊維を駆け抜けていたことに気づきます。ファイバーがその機器にさえアクセスできて、はるかに深く埋められなかったことに、私たちはあまりにも満足していませんでした...
一杯のコーヒーを想像してください。砂糖が入ったフルカップです。ラックの格納式キーボードトレイ上に正しく配置されていないことを想像してください。サーバーでいっぱいのラック。トレイはどういうわけかラックに押し込まれます。カップがラックに入り、倒れる。
それは私のせいで、その時まで私はベテランの管理者だったので、言い訳はできません。近くにバスルームがあり、私はほとんどの混乱をペーパータオルで拭き取ることができました。幸い、十分な量のコーヒーがサーバーに入っていなかったので、私はそれらをシャットダウンして、きれいにしました。影響を受けるユーザーは400人だけです。ふew!
それから別の事故があった、それをそう呼ぼう、それは私の友人に起こった。彼は過去10年間を自分の会社の構築に捧げてきました。彼の従業員数は最大15人で、会社のすべてのデータはこの1つのサーバーにありました。これには、過去と現在のすべてのプロジェクト、たくさんの貸衣装データ、安全を守るために彼が契約していた情報、すべての連絡先情報などが含まれていました。すべてLUKSでうまく暗号化されています。私は彼にバックアップを開始させるために長い間私を悩ませてきましたが、彼はそうしませんでした。忙しすぎて資金が足りないので、あなたはアイデアを思いつきます。彼はRAID1が彼を救うと確信していました。彼の最後のバックアップは8か月前のものでした。それも彼のサーバー稼働時間でした。彼は最後の再起動の直前、これの8か月前にLUKSパスワードを変更していました。現在、彼はサーバーを再起動しましたが、新しいパスワードを書き留めていないことに気付き、覚えていませんでした。彼が覚えていたのは、それが非常に長く、いくつかの単語が何らかの形で大文字と小文字を組み合わせて配置されていて、おそらく記号がスローされていたことだけでした。
彼の従業員の士気低下の程度と、処理のために情報を再送信しなければならず、それによって彼らのデータを「一時的に」利用できなかった衣装係の怒りを想像できます。長い話を簡単に言うと、約40時間の作業、14日間の実行時間、100万を超えるパスワードを生成してテストし、最終的に彼のLUKSパスワードを見つけるための専用プログラムが必要でした。
数年前、当時のiSeries管理者は、IBM iSeriesサーバーがコンピュータールームに置かれている領域でクリーンアップを行っていました。朝の8時半くらいでした。私がその時に取り組んでいたものを使い始めたちょうどその時。数秒後、画面が真っ暗になり、電話がかかってきました。
彼がテーブルを動かしたとき、彼がテーブルを動かしたときにそれが出たのと同じくらい十分に、電源コードが脚に巻きつけられていたことがわかります。
システムが電源遮断から回復してから約2時間後、人々は再び働くことができました。
数年前に少し混乱しました。 SQL Serverがホストするアプリにアクセスすると、ユーザーは午前中に、ロックに関する大量のエラーを報告し始めました。アプリは完全に停止して停止します-誰も何もできません。時間をかけて原因を突き止めるのではなく、緊急再起動を行うと、すべてが再び機能し始めます。次に、さまざまなログを調べて、何がそれをトリガーしたのかを確認します。すべてがおかしくなる直前に、対応するCOMMITのないメインテーブルに対して名前付きのトランザクションが開かれているのを見つけました。
同僚がクエリアナライザーでSQLを記述して、メインテーブルの誤ったデータを修正し、それをトランザクション内に配置したことがわかりました。しかし、F5キーを押して実行するのではなく、全体を強調表示してからF5キーを押しました。彼がしなかったことを除いてquiteすべてを強調しました...彼はそれが実際にトランザクションをコミットした最後を逃しました...テーブルをロックしたままにしました。