|
全2回でBusiness
Continuity(ビジネス継続性)の視点から富士通の「PRIMEPOWER」の実力を探る連載において、第1回は、24時間365日、止まらないサーバシステムが求められる背景と、それに応える富士通のサーバ開発に取り組む基本的なビジョンを中心に紹介した。今回は、世界最高水準の信頼性・可用性を実現するためにPRIMEPOWERに結集された先進テクノロジーと富士通独自のノウハウや高信頼化技術、ノンストップ稼働を支援するサービスなどについて、引き続き、富士通・コンピュータ事業部の開発部長・伊藤裕氏と志賀真之氏にお話をうかがう。
 |
伊藤裕氏 富士通 コンピュータ事業本部サーバソフトウェア事業部第二開発部長 |
|
 |
志賀真之氏 富士通 コンピュータ事業本部事業推進統括部プロダクトマーケティング部 |

―PRIMEPOWERにはメインフレームなどで培った高信頼化技術が組み込まれているということですが。
志賀氏:最新の64ビットプロセッサ「SPARC64
GP」にはメインフレームレベルのRAS(Reliability:信頼性・Availability:可用性・Serviceability:保守性)機能が組み込まれています。 たとえば、プロセッサ内部の1次および2次キャッシュメモリ、メインメモリ、システムバスのすべてにECC(Error
Checking and
Correcting=エラー検出訂正)機構を採用しています。これによりプロセッサの信頼性は向上します。とくにCPUダウンの原因の大半を占めるキャッシュメモリのエラーが実質的になくなるので、障害率を大幅に低減できます。 また、CPUとは独立した専用のプロセッサで構成するSCF(System
Control
Facility=システム監視機構)を採用しています。SCFによって、サーバ内の環境、特にハードウェア異常やサーバ停止などのシステム異常を検出し警告するので、障害を未然に防止できます。 このほか、縮退機能やフェイルオーバ、活性交換などさまざまな高可用化技術を採用して、ノンストップ稼働を実現させています。

| ◇ |
:継続運転を維持するため、運用中またはリブート後に故障した部品をシステムから自動的に切り離す機能 |
| ◇ |
:同じ周辺装置に対し複数のアクセスパスを用意するI/Oマルチパスによって、ディスク、LANなどのアクセスパスを二重化し、故障時には自動的にパスを切り替える機能 |
| ◇ |
:システムを停止することなく故障した部品を交換できる機能。プロセッサ、メモリ、I/Oアダプタなどを冗長化しておくことで、稼働中の構成変更が可能 |

―PRIMEPOWERにはハードウェアでの高信頼化技術とともに、ソフトウェアでも止まらないシステムを実現するソリューションが提供されていましたね。
伊藤氏:Safeシリーズですね。サーバやストレージ、ネットワークの冗長化機能によって、サーバシステムのノンストップ運転を可能にするソフトウェア群です。万一の障害発生時や定期的なメンテナンス時にも、縮退機能や切替機能によって業務停止を回避できます。 具体的には、富士通がメインフレームやスーパーコンピュータで蓄積したクラスタリング技術を結集したSafeCLUSTERを中心に、データを確実に守るボリューム管理ソフトのSafeDISK、高速リカバリ機能を備えたファイルシステムのSafeFILE、そしてネットワーク・トラブルを回避するSafeLINKなどから構成されています。 これらSafeシリーズはPRIMEPOWERとの組み合わせによりハイレベルの信頼性・可用性を実現します。

| ◇ |
:複数のサーバをインターコネクトで接続し、あたかも単一システムのように動作させる。1台のサーバが故障してもその業務をほかのサーバが高速に引き継ぐので、業務停止時間が少ないシステム構築が可能となる。 |
| ◇ |
:内蔵ディスク装置やRAID装置を冗長化(ミラーリング)する機能によって、万一のトラブル時にもデータを確実に保護し、システムの運転を継続させる。また、運転中、常に差分情報をロギングしており、リカバリ時のミラー回復処理も簡単に完了できる。 |
| ◇ |
:ネットワークを多重化する機能により、ネットワーク伝送路にトラブルが発生しても通信環境を維持する。 |
| ◇ |
:ファイルシステムの更新ログを採取する機能により、システムダウンが発生しても数秒でファイルシステムの復旧処理ができる。また、ファイルシステムの容量の拡張が行える機能も備えている。 |
―SafeCLUSTERは他社のクラスタ製品にはない独自の機能を備えているということですが。
伊藤氏:SafeCLUSTERの特長はいくつか挙げられます。たとえばさまざまな障害監視・検出機構を備えていること。障害発生を検出するために、CPU、メモリ、システムバス、ファン、電源はもちろん、クラスタ間を結ぶインターコネクト、共用ディスク装置やOS、ユーザ・アプリケーションまで常に監視しています。監視方法としては一定時間ごとにノード間で監視する定周期監視に加えて、他社クラスタ製品にはない非同期での監視も行うことができます。また、先にお話したPRIMEPOWERのシステム監視機構によって、異常が発生した際には即座に検出し、すばやく業務のフェイルオーバができます。 もう1つ、SafeCLUSTERでは待機系のリソースも監視します。これも他社製品にはあまり例がないと思います。この「待機パトロール」機能によって、待機系においても常にネットワークや本体,OS,ディスク装置の監視を行い、業務のフェイルオーバの失敗を未然に防止することができます。

伊藤氏:障害発生時には待機系へのアプリケーションのフェイルオーバを自動実行するほか、リカバリ処理を容易にするクラスタAPI(Application
Program Interface)を備えているのも特長です。また、IPアドレスに加え、MACアドレス(Media Access Control
adress)やノード名も待機ノードへ引き継ぐことでクライアントへの影響を軽減します。他社クラスタ製品でもIPアドレスなどは基本機能としてフェイルオーバの対象となっていますが、ノード名やMACアドレスまで引継ぎ対象とする製品はほとんどありません。さらに、待機ノードで動作中の優先度の低い業務を停止し、重要な業務を安全・確実に切り替える機能も備えています。
―ホットスタンバイシステムというのをよく聞きますが。
伊藤氏:ホットスタンバイシステムというのは、運用系の故障発生後にデータのフェイルオーバや業務の再起動を行う一般的なスタンバイ方式とは異なり、待機系が事前に業務再開の準備を整えておくシステムのことです。これにより、業務再開までの時間を大幅に短縮することが可能となります。 SafeCLUSTERは、ホットスタンバイも含めて様々なクラスタ運用形態をモデル化し提供していますので、大規模なSAN環境に最適なクラスタシステムを構築することができるほか、安心して最適なクラスタシステムを導入していただけると思います。


―PRIMEPOWERのサポートサービスではSupportDeskというのがありますね。
志賀氏:お客様システム専用の監視サーバを設置し24時間365日、ハードウェア、ネットワーク、OSからアプリケーションまでシステム全体の異常をトータルに監視し、システムの安定稼働をトータルにサポートします。
―どの様な仕組みでサポートするのですか。
志賀氏:当社の最新サーバ機に搭載されているリモート機能により、ハードウェア障害の予兆情報を24時間365日監視。放置すればシステムダウンに繋がる軽微な障害予兆情報をインターネットで通知する仕組みになっています。
―インターネットを利用したサポートですか。
志賀氏:たとえば、自動的にお客様のレジストレーション情報を把握して、正確な情報ですばやく問題対処を行ったり、ファームウェアの修正をリモートで行うことで、早期に確実に提供しトラブルを未然に防止できます。お客様システムで発生するハード/ソフトの障害をリモートで監視しながら、異常があればアラームで通知するということもできます。
―なるほど、便利なサービスですね。
志賀氏:さまざまなオプションメニューも用意していて、お客様の要望にきめ細かく対応しています。たとえば、富士通製品に限らず他社製品を含むマルチベンダー環境にも対応します。トラブル発生時には1つの窓口で受け付けし、その後の切り分け/調査/ベンダー対応を富士通が行います。お客様にはトラブル対応の煩わしい作業を大幅に軽減できます。
SupportDeskの詳細はこちら
2回にわたって、Business
Continuityという視点から、富士通の高性能UNIXサーバ「PRIMEPOWER」が実現している卓越した信頼性・可用性の背景と技術などについて紹介してきた。 ブロードバンド時代を迎えて、ますます多くのシステムが相互にネットワーク接続され24
時間365
日いつでも情報にアクセスできる環境が進展し、それに伴って、システムの信頼性や可用性はさらに重要になってくる。これから時代のビジネスインフラとして高信頼性を実現したPRIMEPOWERを中心としたソリューションのグローバルな評価は、今後、一層高まってくると見られる。 | | |