幅広い分野の研究者ニーズを満たす データ活用社会創成プラットフォーム mdx
特集
幅広い分野の研究者ニーズを満たす
データ活用社会創成プラットフォーム mdx
Society 5.0 時代に求められるデータ活用プラットフォームを目指して
「Society 5.0」は、サイバー空間(仮想空間)とフィジカル空間(現実空間)を高度に融合させたシステムによって、経済発展と社会的課題の解決を両立する、人間中心の社会のことです。2016年に国が策定した「第5期科学技術基本計画」※2の中で日本の未来社会のコンセプトとして提唱され、以来、アカデミアと産業界はSociety 5.0の実現に向けた研究開発を加速しています。東京大学も、今後アカデミアがどのような計算資源を必要とするかを議論し、その答えの1つとして、データ利活用の推進を支援する「データ活用社会創成プラットフォームmdx」を、国立情報学研究所(NII)との密接な連携のもとで構築しました。そして、2021年9月、試験運用が始まったのです。
mdxは、計算資源、ストレージ、ネットワークからなっており、構成要素はスパコンと同じです。しかし、「スパコンが大規模計算を行うために大きな計算資源を提供することを主目的に構成されているのに対して、mdxは十分な計算資源と同時に、一人ひとりのユーザが研究しやすい環境を提供する点がまったく違います」と、塙教授は言います。これまでスパコンを使っていなかった人を含め、データを利用する幅広い分野の研究者に使ってもらうことを目指しているのです。
mdxを利用できるのは、おもにアカデミアの研究者です。プロジェクトを申請し、承認されると、計算資源やストレージ、ネットワーク構成が割り当てられます。そこに、OSやソフトウェアをインストールすれば、プロジェクトに合った仮想環境を短時間で構築できるのです。そして、この仮想環境を用いることで、データを収集・保存したり、解析を行ったり、その結果を公開したりといった研究活動をmdx内で完結できます。
このように、ユーザにとって使い勝手のよいプラットフォームであることが、mdxの最大の特徴です。さらに、「スパコンでの計算やデータの利用に慣れていない研究者がプロジェクトを申請する際には、私たちが相談に応じています」と塙教授。使用中のサポート体制も充実しており、ユーザのハードルはぐっと低くなっているようです。
研究者ならではのニーズに応える3つの特徴
mdxは、研究者用のプラットフォームという性格から、使いやすさに加えて以下の3つの特徴を備えています(図1)。
1つめは、研究者ごとの仮想環境がセキュアに保たれていることです。研究者が扱うデータには、個人情報や、企業の技術情報など秘匿性の高いものが多くありますが、mdxではデータが漏れる心配をせずに研究することができます。さらに、外部からセンサーなどを使ってデータを収集する際にも、その通信までセキュリティが担保されています(後述)。
2つめは、スパコン並みの計算資源を備えており、データ科学と計算科学の手法を融合した研究が行えることです。
3つめは、研究者間の連携を促す場となりうることです。各研究者の仮想環境はセキュアに保たれていますが、必要に応じてデータを共有し、利活用するための機能も提供されます。これにより、研究者はmdx上で異分野の研究者と学際的な共同研究を展開することができます。
柔軟に構築できるハードウェアと仮想環境による高いセキュリティ
このようなmdxの特徴は、どのようにして実現されたのでしょうか(図2)。「mdxの使い方はユーザに全面的に委ねられますから、ユーザが柔軟に仮想環境を構築できるようなハードウェア構成と、セキュリティの確保に特に気をつかいました」と塙教授は説明します。
まず、計算資源としては、最新のCPUを多数備えている他、ディープラーニングのアクセラレータなどとして使われるGPUも搭載しています。ストレージは、「大容量HDDストレージ」と「高速NVMeストレージ」の他、研究で得られた成果やデータベースを外部に公開することを想定して「外部共有オブジェクトストレージ」も設けられています。
内部高速ネットワークによって、プロジェクト内でセキュアかつ高性能なデータ処理が行える一方、外部接続ネットワークは、SINET6とのさまざまな連携が実現できるように工夫がされています。SINET6は、NIIが日本全国の大学や研究機関向けに提供している超高速(400Gbps)の学術ネットワークサービスです。SINET6自体が一般のインターネットとは切り離されており、セキュリティが高いのですが、さらに、内部と外部接続のネットワークを分けたことにより、万一外部から侵入を受けても内部のストレージなどを守ることができるようになっています。
また、SINET6は、モバイルSINET(携帯キャリアの基盤を利用した閉じたネットワーク)と接続しているため、外部のセンサーや遠隔地の装置等からデータをセキュアに収集することが可能です。プロジェクトごとの仮想環境は、モバイルSINETまで含めて完全に分離されており、秘匿性の高いデータを扱う研究も安心して実施できます。
一方、ユーザはNIIが運用する「Gaku Nin」※3というシステムを経由することで、mdxを容易に利用することができます。こうした点について塙教授は、「システムの構成を考えるのも大変でしたが、全国のユーザがアクセスしやすい一連の仕組みをつくり込んだり、運用のやり方を考えるのはさらに大変でした」と振り返ります。
試験運用に参加する70余の課題と今後期待される学際的研究分野の誕生
鈴村教授は、2022年6月30日時点のmdxの利活用状況について「プロジェクトは試験運用開始以来、徐々に増え、現在70以上の課題が動いています。計算資源の使用状況は時々刻々変動しますが、GPUは使用率が90%に迫った時期があるほど大いに活用いただいています」と話します。
順調に試験運用が進むmdxですが、利便性向上のためにさらなる機能の拡張が計画されています。1つは、NIIが運用する研究データ管理基盤サービス「Gaku Nin RDM※4」との連携です。近年、研究者は研究データの適切な管理を強く求められます。研究データを常時、収集し構造的に管理し、必要なときに取り出すことのできるGakuNin RDMと連携することで、より研究しやすい環境が整えられます。また、ハードウェアの面では、mdxを共同運営する11機関が所有するスパコンと接続し、計算資源の強化を図ることが考えられています。さらに、運用を円滑に続けるための適切な課金制度も検討されています。
新サービスとして模索を続けるmdxについて、鈴村教授は「欧米でも、商用ではない“みんなが使えるデータプラットフォーム”の必要性が言われていますが、国レベルでmdxのようなシステムをつくったのは日本が世界で初めてです。日本独自のシステムとして十分に活用していただきたいです」と言います。
柔軟な使い方ができるmdxには、期待通りさまざまな分野のプロジェクトが集まってきており(表1)、日本でどのようなデータ利活用研究が行われているかの全体像も見えてきそうです。そして、その先には、これまで思いもよらなかった分野間の学際的な研究が生まれることが期待されています。「材料科学と情報科学の学際研究が始まり、新素材を発見するための手法を構築しようという研究もすでに始まっています」と鈴村教授。塙教授とともに「日本ならではの新しい研究分野の誕生に積極的に関わっていきたい」と決意を新たにしています。
(取材・構成 池田亜希子)
※1 北海道大学、東北大学、筑波大学、東京大学、東京工業大学、名古屋大学、京都大学、大阪大学、九州大学、国立情報学研究所、産業技術総合研究所
※2 詳細は内閣府ウェブサイト参照
https://www8.cao.go.jp/cstp/kihonkeikaku/index5.html
※3 NIIが全国の大学と連携して運営している学術認証フェデレーション。詳細はNIIウェブサイト参照 https://www.gakunin.jp/
※4 詳細はNIIウェブサイト参照 https://rcos.nii.ac.jp/service/rdm/
※5 詳細はJHPCNウェブサイト参照
https://jhpcn-kyoten.itc.u-tokyo.ac.jp/ja/
この記事が気に入ったらサポートをしてみませんか?