データストレージを止めるな！──着実な連携と監視で運用を支える

2023年5月30日 16:10

nodesの光明情報基盤センターサービスの裏側

東京大学情報基盤センタースーパーコンピューティング部門特任専門員小瀬田勇
ネットワークインテグレータにてクラウドやSDNに関連する製品や技術評価、サポートやSaaS製品の社内システム整備などに従事したのち、2019年6月より現職。

東京大学情報基盤センターには、「共用ストレージ」と呼ばれる巨大なストレージが設置されています。これは「革新的ハイパフォーマンス・コンピューティング・インフラ（HPCI）」の利用者がデータを保存・共有するための高速・大容量のストレージで、計算科学・データ科学の最先端研究を支える重要な役割を果たしています。共用ストレージは、2014年の運用開始以来、定期点検や停電以外ではほとんどサービスを停止することなく現在に至っています。このように質の高いサービスはどのように維持されているのでしょうか。今後は、どのように展開されていくのでしょうか。運用を担当する小瀬田勇さんにうかがいました。

いろいろな方の協力を仰ぎながら、日々運用しています

Q 小瀬田さんのお仕事は？
A 共用ストレージ東拠点の運用を担当しています。情報基盤センター内の先生方にご相談したり、情報システム部スーパーコンピューティングチームの皆さんからアドバイスをいただいたりしながら、業務を進めています。西拠点の担当者や、Gfarmの開発グループとも密接に連携しています。

Q 高速・大容量のストレージを安定的に運用するために、どのような技術的な工夫がされていますか？
A さまざまな箇所を二重化しています（図1）。イーサネット機器は物理的に2系統存在し、一方の機材に障害が発生してもサービスの継続が可能です。インフィニバンドスイッチとストレージ機器の間は複数本のケーブルで接続されていて、ネットワーク帯域の拡張と耐障害性を同時に実現しています。
　また、大量のハードディスク（HDD）を束ねることで45PBというディスク容量を実現しているため、HDDの故障は月に数回必ず発生します。そのときにサービスが止まらないようにするため、ストレージ機器には、HDD故障時に自動で予備のHDDに切り替わる「ホットスペア機能」が備わっています。これにより、故障したHDDはサービスを止めることなく交換できるのです。
　さらに、Gfarmには、ストレージシステムの数を増やすスケールアウトによりデータの読み書き性能をあげられるという特徴があるため、同じ構成のストレージシステムを7セット設置することで大量のデータの高速処理を可能にしています。

図1 東拠点のストレージ・ネットワーク（2023年4月現在）
データはSINET6経由で全国とやりとりされるが、SINET6はイーサネット、ストレージ内部のネットワークはインフィニバンドと通信規格が異なるため、両者の間には変換用機器が設けられている。本番環境用のストレージ機器は、5,760本のHDD（10 TB［テラバイト］）を7つのセットに分けて使用している。他に、Gfarmの更新時のテストなどに使う評価環境機器や、ファイルのメタデータ（作成時期、作成者、更新時期、更新者など）を保存するサーバもある。

障害の原因を突き止めるのはたいへんです

Q 運用状況をいつも見張っているのですか？
A 監視画面（図2）は気になりますが、いつも見ているわけではありません。ストレージには監視のためのシステムが組み込まれていて、なにか起こるとアラートが私のスマホに届くようになっていますので、アラートがきたらすぐに反応するようにしています。保守をお願いしている業者さんや、機材のベンダーさんに連絡を取り、復旧対応をしてもらいます。

Q HDDの故障以外にどんな障害がありましたか？
A 私が2019年に着任してすぐに、データの書き込みや読み出しが遅いという問題が発生しました。いろいろ調べた結果、インフィニバンドスイッチの性能が足りないらしいとわかり、交換しました。それで少し改善されたのですが、まだ根本的な解決には至っていません。いまは、通信ケーブルの本数を増やして通信帯域を広くすることで改善しないか、調べているところです。

図2 HPCI共用ストレージの監視画面
ネットワーク利用帯域やストレージ使用率など、利用状況を表すデータがリアルタイムで表示される。

Q そのような障害対応で難しいのはどういう点ですか？
A 定量的にデータを取る必要があることです。データに基づいて障害箇所を絞り込まないと、ベンダーさんも対応しにくいですからね。でも、「ここがおかしい」というためには、他のところは正常だというデータも集めなければなりません。これがなかなかたいへんです。

監視をさぼれるようにしたいです。いい意味で

Q 今後、容量やネットワークを増強する計画はあるのでしょうか？
A ストレージの容量は、2014年に10 PBでスタートし、2018年に現在の45 PBになりましたが、次のシステム更新で100 PBにする予定で、準備を進めているところです。現在保存されている大量のデータを新システムに移行する必要があるので、ネットワークをきちんと設計して、既存のサービスに影響が出ないようにしなければと思っています。また、大量のデータを短時間で処理するためには、SINET6との回線帯域を十分確保することも重要になります。そこで、SINET6と東拠点間の回線速度を現在の200Gbpsから400Gbpsに上げることを計画しており、準備を進めています。

Q 新システムでは、障害の監視も強化されますか？
A 監視強化の取り組みは、すでに始めています。東西の拠点がお互いの状況を見ることができ、なにかあれば自動的に連絡がくるというシステムが、2023年秋頃には完成予定です。また、障害はいきなり起こるわけではなく、予兆があってから本当に壊れるまでには少し時間がかかります。ですから、新システムでは予兆を知るのに有効なデータを取るための仕組みを整備したいと考えています。そうすることで、障害を未然に防ぐとともに、私自身が監視や障害対応のために使っている時間をサービス向上のために使えるようにしたいのです。

Facts
HPCI共用ストレージ

HPCIに採択された研究課題に参加する研究者が、計算に必要なデータや計算結果を保存・共有するためのストレージ。東拠点（東京大学情報基盤センター、総容量45 PB［ペタバイト］）と西拠点（理化学研究所計算科学研究センター、総容量45 PB）からなり、利用者はおもに、東西両拠点にて提供しているログインノードやHPCI資源提供機関が用意しているログインノードからログインして利用する。広域分散ファイルシステムであるGfarmが採用されており、データは自動的にログイン機関の近くの拠点に保存され、すぐにもう一方の拠点にコピーされる（拠点間二重化）。利用登録者は常時1,000人程度。
URL https://www.hpci-office.jp/using_hpci/hardware_software_resource/2022/hpci_2022_st-1

HPCIの構成
スーパーコンピュータ「富岳」をはじめとする全国の大学・研究機関のスパコンと東西の共用ストレージが、SINET6（国立情報学研究所が提供している超高速ネットワークサービス）でつながれている。

取材を終えて
　共用ストレージは「動いているのが当たり前」なので、運用を担う小瀬田さんにかかる重圧はかなりのものだと思いますが、周囲の方たちとうまく連携を取りながら、自然体で業務を遂行しておられるように見えました。監視の自動化でサービス向上に時間を割けるようになり、世界的に見ても最大規模のストレージをより使いやすくして下さることと期待しています。
（取材・構成　青山聖子）

Contents
　nodes vol.3 巻頭言
特集
　ICTと高等教育
　オンライン教育プラットフォームの運営と教員の教育力向上サポート
　 VRを活用する教育の効果と可能性
連載 nodesの光明
　データストレージを止めるな！──着実な連携と監視で運用を支える
連載飛翔するnodes
　シミュレーション・データ・学習の融合を可能にする
　新たな通信システムソフトウェア
nodesのひろがり
　政府調達ってそもそも何なん？
　東京大学のDXとは？
　地球を覆う巨大な情報通信網
　番外編 SC22参加報告