FreeBSDのlogin(1)が壊れてログインできない
スポンサーリンク
これは、とある大規模バックエンドシステムの話です。
FreeBSDマシンを32台構成や128台構成にして組まれている大きなバックエンドシステムがあります。何百台もあって、アラートが絶えずやってきます。ストレージが壊れたりと故障が多く筐体を3ヶ月に30台もリプレイスすることがあります。
アラートのメールに起こされて、システムの様子を見ようとすると普通にsshでログインできませんでした。仕方なく、運用担当者は、コンソールからログインを試みます。どうやら、障害が発生し、自動的にマシン(かオペレーティングシステム)がリブートしてしまったようです。そのままファイルシステムがちゃんとマウントできず、シングルユーザーモードで起動していました。エラーメッセージに従い、とりあえず、fsckを実行しました。
その後で、fsckが終わったあとにC-dをして、マルチユーザを上げました。そうすると、今度は、起動したももの、ちゃんとシステムが起動していないことが、アラートメールで解りました。
何がおかしいのか、調査するために FreeBSDに sshを試みますが、/usr/bin/login が実行形式(ELF)じゃないよとgettyに言われるようです。どうやら、障害時にHDDのデータが壊れたと思われます。こうなってしまうと、コンソールからもログインすることができません。
FreeBSDマシンを32台構成や128台構成にして組まれている大きなバックエンドシステムがあります。何百台もあって、アラートが絶えずやってきます。ストレージが壊れたりと故障が多く筐体を3ヶ月に30台もリプレイスすることがあります。
アラートのメールに起こされて、システムの様子を見ようとすると普通にsshでログインできませんでした。仕方なく、運用担当者は、コンソールからログインを試みます。どうやら、障害が発生し、自動的にマシン(かオペレーティングシステム)がリブートしてしまったようです。そのままファイルシステムがちゃんとマウントできず、シングルユーザーモードで起動していました。エラーメッセージに従い、とりあえず、fsckを実行しました。
その後で、fsckが終わったあとにC-dをして、マルチユーザを上げました。そうすると、今度は、起動したももの、ちゃんとシステムが起動していないことが、アラートメールで解りました。
何がおかしいのか、調査するために FreeBSDに sshを試みますが、/usr/bin/login が実行形式(ELF)じゃないよとgettyに言われるようです。どうやら、障害時にHDDのデータが壊れたと思われます。こうなってしまうと、コンソールからもログインすることができません。
ssh backendsystem sh
でshは起動できますが、
ssh backendsystem csh
とかすると、core dump してしまったりしました。
ssh backendsystem /usr/bin/file /usr/bin/login
とかすると、意味不明(初めて見たタイプ)なファイルのタイプであるとfileコマンドは言い、要するにELFじゃない、ということでした。
ファイルシステムがおかしくなってしまったのか、ハードウェアやストレージがおかしくなってしまったのか、原因が特定しにくい状況ですが、とりあえず、オペレーティングシステムの入れ直しをして様子を見ることになりました。ちなみにストレージはRAID5が組んであります。
ヘタに動いてしまっているばっかり、監視設定は機能してしまっていて、中で必要なプロセスや処理ができないために、アラートメールはひたすら送信され続けて、でも、ログインできないから、アラートが止められないという非常に辛い状況に陥っていました。サーバ自体は、データセンターで自分では簡単に止められない場所にあり、完全にお手上げでした。
こういう自体に陥ってしまうとリモート環境は辛いですね。
システムの運用は大変です。特に台数があると、さらに大変です。
自分のローカルホストだけでも、色々面倒があるのに、ですよね。
スポンサーリンク
スポンサーリンク
いつもシェア、ありがとうございます!
もっと情報を探しませんか?
関連記事
最近の記事
- パナソニック ジェットウォッシャードルツ EW-DJ61-Wのホースの修理
- LinuxセキュリティモジュールIntegrity Policy Enforcement
- アマゾンのEcho Show 5を買ったのでレビューします
- アマゾンのサイバーマンデーはAlexa Echo Show 5が安い
- Android スマートフォン OnePlus 7T と OnePlus 7の違い
- Android スマートフォン OnePlus 7 をAndroid10にアップデートしてみた
- クレジットカードのバーチャルカードの比較のまとめ
- 活動量計 Xiaomi Mi Band 4を買ってみたのでレビュー
- Android スマートフォン OnePlus 7 のレビュー
- AliExpressでスマートフォンを買い物してみた
- パソコンのホコリ対策 レンジフードフィルターと養生テープ
- 80PLUS GOLDのPC電源ユニットAntec NeoEco 750 Goldのレビュー
- イギリスの付加価値税 VAT は払い戻しを受けられる
- イギリスのロンドンでスーツケースなど荷物を預けられる場所は
- イギリスのロンドンで地下鉄やバスに乗るならオイスターカードを使おう
- イギリスのヒースロー空港からロンドン市内への行き方
- 航空便でほかの航空会社に乗り継ぎがある場合のオンラインチェックイン
- SFC会員がANA便ではなくベトナム航空のコードシェアを試して解ったこと
- ベトナムの入国審査でeチケットの掲示が必要だった話
- シアトルの交通ICカードはオルカカード(Orca)です
人気のページ
- Windows7 IME 辞書ツールで単語の登録に失敗しました
- C言語 popen()でコマンドを実行して出力を読み込む
- Windows7で休止状態にする方法
- CentOS MySQLの起動、停止、再起動
- loggerコマンドでsyslogにエラーを出力する方法
- パソコンパーツの買取をしてくれる店のまとめ
- Java Mapの使い方 get(),put(),remove(),size(),clear()
- 楽天のRポイントカードを作ってみた
- iPhone 5 から iPhone 6 に乗り換えたのでレビュー
- netstatコマンドのステータスの意味
スポンサーリンク
過去ログ
2020 : 01 02 03 04 05 06 07 08 09 10 11 122019 : 01 02 03 04 05 06 07 08 09 10 11 12
2018 : 01 02 03 04 05 06 07 08 09 10 11 12
2017 : 01 02 03 04 05 06 07 08 09 10 11 12
2016 : 01 02 03 04 05 06 07 08 09 10 11 12
2015 : 01 02 03 04 05 06 07 08 09 10 11 12
2014 : 01 02 03 04 05 06 07 08 09 10 11 12
2013 : 01 02 03 04 05 06 07 08 09 10 11 12
2012 : 01 02 03 04 05 06 07 08 09 10 11 12
2011 : 01 02 03 04 05 06 07 08 09 10 11 12
2010 : 01 02 03 04 05 06 07 08 09 10 11 12
2009 : 01 02 03 04 05 06 07 08 09 10 11 12
2008 : 01 02 03 04 05 06 07 08 09 10 11 12
2007 : 01 02 03 04 05 06 07 08 09 10 11 12
2006 : 01 02 03 04 05 06 07 08 09 10 11 12
2005 : 01 02 03 04 05 06 07 08 09 10 11 12
2004 : 01 02 03 04 05 06 07 08 09 10 11 12
2003 : 01 02 03 04 05 06 07 08 09 10 11 12