信頼のパートナー UNIXサーバ PRIMEPOWER
ハードウェア故障の可視化
PRIMEPOWER本体装置は、(2008年5月に)販売終息いたしました。
なお、本製品の後継製品は、SPARC Enterpriseとなります。
各モデルの販売終息時期の詳細につきましては、「今までに発表した製品」をご参照ください。

2006年6月13日
PRIMEPOWERは、メインフレーム開発で培った高信頼・高可用技術を活かして開発されたUNIXサーバです。信頼性の高い部品の採用や、部品の冗長化などのトラブルを起こさないための技術に加えて、フィールド・トラブルをできるだけ早く解決してトラブルの影響を最小化するための様々な技術を採用して、高可用性を実現しています。
本記事ではトラブルの影響を最小化する技術の一つである「ハードウェア故障の可視化」について、ご紹介します。
ハードウェア故障の可視化の仕組み
ハードウェア故障を可視化する仕組みは、人の体の仕組みに良く似ています。
人の体には神経が無数に張り巡らされていて、体に何か異変が起きると、異変に関する情報がすぐに脳に伝えられます。
例えば転んでひざを打つと、神経が刺激に関する情報を脳に伝達します。脳は神経によって伝えられた情報から、自分の体のどの部分で何が起きたのかを知ることができます。

PRIMEPOWERの場合、本体装置にきめ細かくエラー検出回路(チェッカー)を装備して、常時監視しています。監視情報は、システム監視機構(SCFまたはXSCF)に集められます。集められた情報は、OSの情報と合わせて解析され、システム管理者に通知されます。
例えばファンでトラブルが起きたとします。すると、トラブルに関する情報が全てシステム監視機構に集められて、システム管理者に通知します。管理者は、管理ツールからトラブルの内容や発生した箇所を一目で確認できます。
このような仕組みにより、 PRIMEPOWERはハードウェア故障の可視化を実現しました。その結果、トラブル発生時にも確実・迅速にシステムを復旧することができ、トラブルが発生してもその影響を最小限に抑えることが可能です。

1. ハードウェアトラブルを検知
PRIMEPOWERでは、本体装置全体にきめの細かいチェッカーを装備しており、装置内を常時監視していますので、故障や故障の予兆を素早く検知し、トラブルを未然に防ぐことが可能です。
PRIMEPOWER 2500では、装置内に約32万個(最大構成の場合)ものチェッカーを装備しています。チェッカーは、常にCPU・メモリ・システムボードをはじめ、ファンの回転数や装置内の温度など、本体装置の状態を監視しています。

2. トラブル情報を収集
本体装置の情報は、すべてシステム監視機構に通知・蓄積されます。本体装置に関するあらゆる情報がシステム監視機構に集められますので、例えばどこの回路でトラブルが起きたのか、故障箇所の特定が迅速に行えます。システム監視機構により、本体装置の状態を的確に把握できます。
システム監視機構は、本体装置のCPUとは別の専用プロセッサ(サービスプロセッサ)で稼動しているので、もしOSがダウンしても影響を受けることなく、本体装置の監視・制御を行うことができます。

3. トラブルをシステム管理者に通知
システム監視機構に集められた情報は、サーバ監視ソフトウェア「Enhanced Support Facility(以下、ESF)」を使用して確認できます。ESFはPRIMEPOWERの運用管理性および保守性を向上させる機能を提供するソフトウェアで、PRIMEPOWERに標準添付しています。
本体装置の状態監視
ESFは、システム監視機構から通知されるログ情報や、OSのログ情報を解析して、本体装置の状態をシステム管理者にわかりやすく通知します。そのため、ハードウェア故障が発生すると、どの部品で故障しているのか、一目で把握することができます。ハードウェア故障に対して素早い対応ができるので、システムの可用性向上につながります。
また、ハードディスクやメモリのエラーメッセージを常時監視しており、故障が起きる予兆を感知すると該当する部品を交換するようにシステム管理者に通知します。そのため、ハードディスクやメモリ故障によるシステム停止を未然に防ぐことができます。

注1:PRIMEPOWER 250, 450の場合、XSCFを使用した監視も可能です。XSCFの詳細は「システム監視機構(SCF, XSCF)によるサーバの監視・制御」をご参照ください。
注2:PRIMEPOWER 900, 1500, 2500の管理には、システムコンソールが必要です。
当社専門スタッフによるリモート監視
保守・運用支援サービスSupportDeskご契約により「リモート通報機能」を標準提供します。リモート通報機能は、富士通サポートセンターの専門スタッフがPRIMEPOWERの稼働状況を常時監視します。
ハードウェアの障害予兆情報を検知すると、富士通サポートセンターに自動通報します。システム管理者にかわって専門スタッフが適切に対応し、トラブルの未然防止を実現します。
また、万一のトラブル発生時には、自動的に通報されたハードウェアの異常情報をもとに、センターの専門スタッフがトラブル箇所の特定、部品の手配、保守要員の派遣までを実施して、短時間でトラブル解決を図ります。

複数のサーバの統合管理
複数のサーバを同時に監視する場合、サーバ管理ソフトウェア「Server System Manager」を使用します。
Server System Managerは、 1台の管理クライアントから複数のサーバの状態を監視することができるソフトウェアです。各サーバのシステム監視機構の情報は、ESFを経由してServer System Managerの運用管理サーバに集められます。集められた情報を、運用管理クライアントで表示・監視することができます。
ハードウェア構成をグラフィカルに表示することができ、リアルタイムでサーバの状態を監視することができます。サーバに異常が発生すると、管理画面上にどのサーバのどの部品に異常が発生したか表示されるので、異常箇所の特定が容易にできます。
また、PRIMEPOWERに加えて、基幹IAサーバ PRIMEQUEST、PCサーバ PRIMERGYが混在する環境において、3つのプラットフォームを統合管理することができます。
Server System Managerを利用することで、複数サーバの監視が容易になり、運用管理者の負担を軽減させることができます。本ソフトウェアは、PRIMEPOWERに標準添付しており、最新版はwebダウンロードにより無償提供しています。

注3:運用管理を行うPCには、Server System Managerクライアントソフトのインストールが必要です。
PRIMEPOWERはハードウェア故障を可視化して、確実・迅速なシステム復旧を可能にすることで、「アップタイムの最大化」 を実現しています。
[注記事項]
- 掲載内容は発行日時点のものです。
