今後のRICC運転につきまして:情報基盤センター長からのご報告(3月25 日15時現在)
2011年03月25日
情報基盤センター
情報基盤センター 姫野 龍太郎
今回の大震災で亡くなられた方にまず哀悼の意を表します。また、被害に遭われた方には謹んでお見舞い申し上げます。
さて、震災後これまで運転を止めていたRICCですが、先週金曜日から部分的に運転を再開させてきました。具体的には
- フロントエンドの運転:ファイルアクセスの確保
- アーカイブシステムの運転:テープ装置へのデータ保存やデータ参照
- 計算ノードの部分運転:実行時間を短縮したジョブの受け入れと処理(MPCの全体の半分とMD-GRAPEクラスタは停止)
の3段階で、運転を実施。現在、日中は1+2、夜間は3を基本としています。ただし、和光市が計画停電の対象になっている場合、理研も停電する可能性があります。このため、夜間や早朝に停電する予定が入っている場合は、3の運転は行えない場合があります【註1】。また、現在は週末の運転を停止しています。これは週末にも輪番停電が計画されているためです【註2】。
今後の運転の見通しですが、当面、以下のように行います。
- フロントエンドとアーカイブシステムを運転:平日の24時間
- 計算ノードの部分運転:平日の22時から翌6時まで
を計画しています。計画停電の対象となっている場合は、上記運転時間であっても、停電の2時間前から有人で停止作業に入らなければならないため、運転時間を短縮する場合があります。早朝深夜に計画停電の対象になった場合は2の運転は中止します【註1】。 今後、電力事情が改善し、週末の輪番停電が計画されなくなってきたら、週末の運転を再開する予定でいます。
東京電力の公表されている計画から、このような状態は4月半ば頃まで、徐々に計画停電の範囲を小さくしながらも続く見通しです。5月に入れば、計画停電は回避され、通常の運転に戻ることができる見通しです(通常運転:全計算ノードでのサービス)。その後、7月から再び計画停電等、電力削減への協力を行う必要がでてくるものと思います。その場合は、運転規模やサービス時間の縮小でご協力をお願いします。おそらく夏の電力削減への協力は9月まで続くのではないかと思っています。
情報基盤センターとしては、大規模並列ジョブの計算の再開に特に切迫した要望が寄せされていることから、できるだけ早い時期に実現させたいと考えています。
以上
註1
フロントエンドとアーカイブシステムの運転には起動・停止に約1時間かかります。また、計算ノードも含めた起動停止には約2時間かかります。もし、正常に停止できない場合、ファイルシステムに異常を来す恐れがあるほか、次回起動時にファイルシステムのチェックを行うため、運転までに約20時間かかります。RICCは停電時に備えたバッテリーバックアップ装置(CVCF装置)を備えていますが、計算ノードを動かした場合には1時間も保ちません。一旦放電してしまうと、充電に約1日かかります。また、計算機そのものは自動的な運転と停止が可能ですが、バッテリーバックアップ装置と空調機器の起動停止は人手が必要な作業となっています。 以上のことから
- 6:20-10:00の計画停電が予定された場合は4時から停止作業と確認
- 18:20-22:00の計画停電が予定された場合は22時からの起動作業と確認
が必要となります。このような深夜作業は非常時であるとはいえは継続しての実施は困難です。このため、夜間運転に関しては一つのパターンのみで自動化することをめざしています。
註2(註1からお読みください)
休日に計画停電が予定されていると、註1に記しているように、バッテリーバックアップ装置や空調機の停止起動のために作業員が対応する必要があります。また、現在までの実績では停電が計画されていても実施されないことが多々あり、自動的な運転が困難です。このようなことから、週末に輪番停電が計画された場合、週末運転は行わないこととしました。輪番停電が計画されなくなった際には、計算ノードを含めた運転を計画したいと考えています。
なお、RICCは消費電力から見ると、おおよそ以下のようになっています。
- フロントエンドとファイルサーバー : 68kw( 15%)
- 上記システム+計算ノード起動、計算実行:260kw( 57%)
- 全システム起動実行時 :450kw(100%)