富士通

信頼のパートナー UNIXサーバ PRIMEPOWER
SPARC64™ Vが誇るRAS機能

PRIMEPOWER本体装置は、(2008年5月に)販売終息いたしました。
なお、本製品の後継製品は、SPARC Enterpriseとなります。

各モデルの販売終息時期の詳細につきましては、「今までに発表した製品」をご参照ください。

RAS機能の重要性とPRIMEPOWERの優位性

2006年5月9日

SPARC64 V開発者が「第38回 市村産業賞 貢献賞」を受賞

PRIMEPOWERには、当社が開発したSPARCプロセッサ「SPARC64 V」を搭載しています。SPARC64 プロセッサは、サン・マイクロシステムズ社が開発しているUltraSPARCと共にSPARC V9アーキテクチャに基づいて開発しており、SPARC International社からSPARC V9認証を取得しています。

SPARC64 Vは、長年にわたる当社コンピュータ開発の経験と蓄積した技術を継承して開発した、実力No.1プロセッサです。プロセッサ開発の実績が認められて、SPARC64 Vの開発者は「第38回 市村産業賞 貢献賞」および内閣総理大臣表彰「第1回 ものづくり大賞 優秀賞」を受賞しています。

SPARC64 Vを搭載したPRIMEPOWERは、24時間365日の継続運用が求められる基幹システムを中心に、ご利用していただいているサーバです。そのためSPARC64 Vは、性能に加えてRAS機能(注1)にも力を入れて開発しています。

本記事では、SPARC64 Vの開発においてRAS機能強化を重要視する理由や、 RAS機能における他社優位性について紹介します。

注1:RAS は、Reliability(信頼性)、Availability(可用性)、Serviceability(保守性)を総称する言葉。それぞれの頭文字をとりRAS (ラス)と呼びます。

ハードウェア故障を引き起こす間欠故障

システム停止要因の1つであるハードウェア故障は、CPU、メモリ、バスを流れるデータに異常が発生するデータエラーと、ファンや電源などが動かなくなる部品故障に分けることができます。データエラーはさらに、特定の箇所で必ずデータエラーが発生する固定故障と、不特定の箇所で一時的にデータエラーが発生する間欠故障(ソフトエラー)に分類できます。

データエラーは、メモリやラッチなどの記憶素子やバス、演算回路等で、ビットの状態が反転(“1”→“0”または“0”→“1”)する現象です。固定故障は、回路の断線やショートなど、ハードウェアの損傷が原因で発生します。一方、間欠故障は外部からの放射線や電磁波、熱などの影響により発生します。


プロセッサ性能の向上と間欠故障の増加の関係

固定故障は発生場所や原因が特定しやすいですが、間欠故障は予兆なく発生し、また発生する場所やタイミングの規則性はありません。しかし近年の研究において、間欠故障の発生とプロセッサの高速化技術に密接な関係があることが判明しました。

例えば、プロセッサに使われている半導体技術の微細化により、トランジスタが小さくなります。その結果、トランジスタの動作が速くなり、性能が向上します。しかし同時に、放射線や電磁波などの影響を受けやすくなり、間欠故障が起こりやすくなります。

他にも、電源電圧の低下、LSI周波数やバス周波数の高速化など、プロセッサの性能向上を実現する技術は、ビット状態の反転を起きやすくする原因にもなり得ます。つまり、プロセッサ性能の向上と、間欠故障の増加は、トレードオフの関係にあります。

当社のメインフレーム開発者は、昔から固定故障に加えて間欠故障も重要視しており、その対策に取り組んできました。そのため当社のメインフレーム用プロセッサには、間欠故障を検出して修復するための様々なRAS機能を実装しています。そして、メインフレームと同じ開発者により開発されたSPARC64 Vも、メインフレームと同じRAS機能を実装しています。

メインフレームと同じRAS機能 -他社優位性-

間欠故障に対応するには、「確実に発見して」「リカバリーをする」、この2点が重要になります。SPARC64 Vには強力なエラー検出機構とリカバリー機構が装備されています。

通常、間欠故障はRAMと呼ばれるデータを記録する場所で多く発生します。プロセッサで一番間欠故障が起きやすい場所は、RAMで構成されるキャッシュメモリと呼ばれる記憶回路です。そのため最近は、他社のオープンサーバ用プロセッサでも、キャッシュメモリをECCやパリティでデータ保護するようになり、「メインフレームクラスのRAS機能搭載」と宣伝されるようになりました。
しかし、間欠故障はキャッシュメモリ以外の回路、例えば演算器やレジスタ、それらをつなぐデータバスでも起きる可能性があります。

当社は、基幹業務を支えるサーバに搭載するプロセッサのRAS機能がキャッシュメモリのデータ保護だけでは、不十分だと考えています。そこで、演算器やレジスタなどの回路もパリティ保護することで、プロセッサ内で起きた固定故障、間欠故障を逃さず検出できる仕組みになっています。
エラーを検出した場合には、ハードウェアで自動的に訂正したり、命令を再実行したりします。それでもエラー訂正できなかった場合は、自動的に故障部分のみ縮退します。この間もサーバは動作し続けます。

また、プロセッサ内部で常に動作内容を記録しています。そのため、他社と異なりエラー情報だけではなく、エラーが発生するまでの動作履歴も確認することができます。このプロセッサの動作を記録するヒストリー機能により、より早く、より正確にエラーの原因解析を行うことができます。

SPARC64 Vのエラー検出と自己修復範囲

当社は、ここまで対応できて初めてメインフレームと同じRAS機能を持つプロセッサであると考えています。 SPARC64 Vは、真のメインフレームと同じRAS機能を持つオープンサーバ用プロセッサです。

他社でも、ソフトウェアの助けを借りて命令リトライやキャッシュ動的縮退、エラーログ記録を実現しているオープンサーバ用プロセッサはあります。しかし、ハードウェア自身が判断をして、命令の再実行や動的縮退ができる自律プロセッサは、SPARC64 Vだけです。

表1:プロセッサの信頼性の違い
 SPARC64 VA社B社
エラー検出1次キャッシュメモリ命令:二重化+パリティ
データ:ECC
エラーの検出、訂正が可能でありシステム停止に陥ることはない
命令:パリティ
データ:ECC
エラーの検出は可能であるが、ソフトでのリカバリーができない場合はシステム停止につながる可能性がある
命令:二重化+パリティ
データ:ECC
エラーの検出、訂正が可能でありシステム停止に陥ることはない
2次キャッシュメモリ命令: ECC
データ:ECC
エラーの検出、訂正が可能でありシステム停止に陥ることはない
命令:パリティ
データ:ECC
エラーの検出は可能であるが、ソフトでのリカバリーができない場合はシステム停止につながる可能性がある
命令: ECC
データ:ECC
エラーの検出、訂正が可能でありシステム停止に陥ることはない
演算器、レジスタパリティ(注2)
エラーの検出、訂正が可能でありシステム停止に陥ることはない
実装無し
エラーの検出ができず、重大な障害に発展する可能性あり
実装無し
エラーの検出ができず、重大な障害に発展する可能性あり
訂正ハードウェア命令リトライ実装有り
エラーの検出、訂正が可能でありシステム停止に陥ることはない
実装無し
エラーの検出ができず、重大な障害に発展する可能性あり
実装無し
エラーの検出ができず、重大な障害に発展する可能性あり
縮退キャッシュメモリの動的way縮退(注3)実装有り
エラーの検出、訂正が可能でありシステム停止に陥ることはない
実装無し
エラーの検出ができず、重大な障害に発展する可能性あり
実装無し
エラーの検出ができず、重大な障害に発展する可能性あり
記録ヒストリー機能実装有り実装無し実装無し

注2: パリティエラー検出時は、命令リトライ機能によりハードウェアでのリカバリーを実現します。
注3: wayはキャッシュメモリを構成する単位です。SPARC64 Vは4way構成です。

世界の技術者が注目するSPARC64 V

RAS機能に力を入れて開発されたSPARC64 Vですが、数多くの著名なベンチマークテストで首位を記録するなど、他社に負けない高性能も実現しています。PRIMEPOWERは、現在も2階層SAP(R) SD、SPECjbb(R)2000など、6つのベンチマークテストにおいて、世界最高性能を保持しています(2006年5月9日現在)。

このような高い性能と高度なRAS機能を持つSPARC64 Vは、Processor ForumやThe Ninth International Symposium on High-Performance Computer Architecture(HPCA9)等のワールドワイドな学会において発表しており、世界中の技術者がその技術と開発手法に注目しています。
当社は今後も高性能・高信頼なSPARC64プロセッサおよびUNIXサーバを開発し、世界中のお客様に提供していきます。


[注記事項]

  • 掲載内容は発行日時点のものです。
  • 2階層SAP(R) SDで世界最高性能を記録した測定結果は、同時アクセスユーザ数 21,000ユーザ、平均レスポンス時間 1.91秒、オーダー項目処理件数 2,116,330件/時、認証番号2005013。測定環境は、PRIMEPOWER 2500(SPARC64 V, 2.08 GHz, 128CPU, L1キャッシュメモリ 256 KB, L2キャッシュメモリ 4MB)、Solaris 9、Oracle 9i、SAP R/3(R) Enterprise Release 4.70。[2006年5月9日現在]
  • SPECjbb2000で世界最高性能を記録した測定結果は、1秒あたりの処理数 2,586,698ops/s。[2006年5月9日現在]
  • ベンチマーク記録は、SAP(R)、SPEC、および「Ideas International」(第三者機関)のホームページなどで公開されています。ベンチマークテストの詳細および最新情報は以下のページをご覧ください。