スポンサーリンク

これは、とある大規模バックエンドシステムの話です。

FreeBSDマシンを32台構成や128台構成にして組まれている大きなバックエンドシステムがあります。何百台もあって、アラートが絶えずやってきます。ストレージが壊れたりと故障が多く筐体を3ヶ月に30台もリプレイスすることがあります。

アラートのメールに起こされて、システムの様子を見ようとすると普通にsshでログインできませんでした。仕方なく、運用担当者は、コンソールからログインを試みます。どうやら、障害が発生し、自動的にマシン(かオペレーティングシステム)がリブートしてしまったようです。そのままファイルシステムがちゃんとマウントできず、シングルユーザーモードで起動していました。エラーメッセージに従い、とりあえず、fsckを実行しました。

その後で、fsckが終わったあとにC-dをして、マルチユーザを上げました。そうすると、今度は、起動したももの、ちゃんとシステムが起動していないことが、アラートメールで解りました。

何がおかしいのか、調査するために FreeBSDsshを試みますが、/usr/bin/login が実行形式(ELF)じゃないよとgettyに言われるようです。どうやら、障害時にHDDのデータが壊れたと思われます。こうなってしまうと、コンソールからもログインすることができません。

ssh backendsystem sh

でshは起動できますが、

ssh backendsystem csh

とかすると、core dump してしまったりしました。

ssh backendsystem /usr/bin/file /usr/bin/login

とかすると、意味不明(初めて見たタイプ)なファイルのタイプであるとfileコマンドは言い、要するにELFじゃない、ということでした。

ファイルシステムがおかしくなってしまったのか、ハードウェアやストレージがおかしくなってしまったのか、原因が特定しにくい状況ですが、とりあえず、オペレーティングシステムの入れ直しをして様子を見ることになりました。ちなみにストレージはRAID5が組んであります。

ヘタに動いてしまっているばっかり、監視設定は機能してしまっていて、中で必要なプロセスや処理ができないために、アラートメールはひたすら送信され続けて、でも、ログインできないから、アラートが止められないという非常に辛い状況に陥っていました。サーバ自体は、データセンターで自分では簡単に止められない場所にあり、完全にお手上げでした。

こういう自体に陥ってしまうとリモート環境は辛いですね。
システムの運用は大変です。特に台数があると、さらに大変です。
自分のローカルホストだけでも、色々面倒があるのに、ですよね。


スポンサーリンク
スポンサーリンク
 
いつもシェア、ありがとうございます!


もっと情報を探しませんか?

関連記事

最近の記事

人気のページ

スポンサーリンク
 

過去ログ

2020 : 01 02 03 04 05 06 07 08 09 10 11 12
2019 : 01 02 03 04 05 06 07 08 09 10 11 12
2018 : 01 02 03 04 05 06 07 08 09 10 11 12
2017 : 01 02 03 04 05 06 07 08 09 10 11 12
2016 : 01 02 03 04 05 06 07 08 09 10 11 12
2015 : 01 02 03 04 05 06 07 08 09 10 11 12
2014 : 01 02 03 04 05 06 07 08 09 10 11 12
2013 : 01 02 03 04 05 06 07 08 09 10 11 12
2012 : 01 02 03 04 05 06 07 08 09 10 11 12
2011 : 01 02 03 04 05 06 07 08 09 10 11 12
2010 : 01 02 03 04 05 06 07 08 09 10 11 12
2009 : 01 02 03 04 05 06 07 08 09 10 11 12
2008 : 01 02 03 04 05 06 07 08 09 10 11 12
2007 : 01 02 03 04 05 06 07 08 09 10 11 12
2006 : 01 02 03 04 05 06 07 08 09 10 11 12
2005 : 01 02 03 04 05 06 07 08 09 10 11 12
2004 : 01 02 03 04 05 06 07 08 09 10 11 12
2003 : 01 02 03 04 05 06 07 08 09 10 11 12

サイト

Vim入門

C言語入門

C++入門

JavaScript/Node.js入門

Python入門

FreeBSD入門

Ubuntu入門

セキュリティ入門

パソコン自作入門

ブログ

トップ


プライバシーポリシー