次世代の研究開発基盤とは?〜ハイパフォーマンスコンピューティングとGPUを含めた仮想化の融合〜
みなさん、こんにちは。ヴイエムウェアで東日本の公共分野、その中で主に大学のお客様を担当している山﨑です。今回は大学の重要な役割の一つである研究開発に欠かせない、ハイパフォーマンスコンピューティング(以後、HPC)と仮想化について、ヴイエムウェアの視点から、最先端の技術動向や事例などを交え、ご紹介いたします。
研究開発におけるHPCの役割と課題
大学をはじめとした研究機関におけるHPCにおいて、皆様が最初にイメージするものは、スーパーコンピューター、いわゆるスパコンかと思います。 最近では、次世代スパコン「富岳」が、世界一位になったと大きな話題となりました。(※1)膨大な情報をもとにしたシミュレーションを必要とする医療や環境などの研究開発において、スパコンは非常に重要な役割を担っており、欠かすことのできない存在となっています。文部科学省が提唱するHPCI(※2)もこの重要性を示す一つの取り組みであるといえます。 ただし、スパコンを扱うためには非常に高度なスキルが必要であり、また、スマートシティやIoTなど様々な分野とのデータ連携が必要とされる中、このスキルのハードルが、データ利活用の観点においても大きな課題となっていました。 このような背景から、スパコンのような高度な計算資源(HPC)を、誰でもより簡単に利用できるプラットフォームとして提供するために、仮想化技術を用いたHPC基盤が、昨今、注目を集めています。
HPCに対するVMwareのアプローチ
VMwareが提供するHPCに最適化された仮想化テクノロジーは数多く存在します。本章では以下の代表的な3つの分類における、仮想化テクノロジーについてご説明いたします。
各テクノロジーのご紹介に入る前に、まずはVMwareが考える仮想化技術を用いたHPC基盤のあるべき姿について、簡単にご紹介いたします。
この図はVMwareの考えるHPC仮想基盤のあるべき姿ですが、実は、これまでの仮想化技術を用いた仮想化基盤の理想像と大きく差はありません。
これまで一般的に物理環境で構成されてきたHPC基盤を、仮想化技術を用いて提供することで、HWリソースの有効活用や自動化による構成管理の簡素化、vMotionなどによる耐障害性・運用性の向上、仮想化技術の更なる活用(ネットワーク仮想化、ストレージ仮想化など)による投資対効果の最適化など、数多くのメリットを実現することが可能になります。
また、単純に仮想化するのではなく、重要なことは、例えば、汎用基盤とHPC基盤を適切に組み合わせることで、用途や目的に応じて、最適なリソースや機能、セキュリティレベルの適用が可能なHPC基盤を提供することにあると考えています。
こういったメリットがありながら、HPCの世界において、これまで仮想化が普及してこなかったのにも理由があります。それは、パフォーマンスです。上記で述べている、「HPCに最適化された仮想化テクノロジー」は、仮想化技術を用いながら、利用者が求めるパフォーマンスも合わせて提供するための重要な役割を担っています。
では、ここから各テクノロジーのご説明に入りたいと思います。
①ネットワーク
HPC基盤に求められるネットワークテクノロジーの概要について、ご説明いたします。
vSphereでは、HPCネットワークを実現するために欠かせない技術であるSR-IOVのサポートに加えて、PVRDMAと呼ばれる、ML/AIのワークロードなどで必須となるRDMA通信を、通常の仮想NICと同じように仮想マシンで扱うことができる機能を提供します。
これにより、パフォーマンス重視の環境(VM)にはSR-IOVを、パフォーマンスと可用性・運用性の双方が求められる環境にはPVRDMAを、といった形で、単一のHPC基盤上でニーズに応じて最適な構成や機能を提供することが可能となります。
また、SR-IOVは物理NICとの互換性が非常に重要となります。圧倒的なシェアと実績を誇るvSphereは、多くのNICベンダ様との互換性を有しています。
※互換性は、VMware Compatibility Guide(※3)より確認ができます。例えば、2021/7/28現在、vSphereでサポートされるSR-IOV対応NICは1368モデル存在します。
②ストレージ
HPC基盤に求められるストレージテクノロジーの概要について、ご説明いたします。
・NVMe over Fabric
AI/MLやシミュレーション解析などを行うためには、大容量データを高速に扱える必要がありす。vSphereでは、Lusterなどの高速ストレージのサポート(この場合SR-IOVなどによる仮想マシンベースで接続 ※4)だけでなく、ホストベースのストレージ接続についても、NVMe over Fabricを用いたハイパフォーマンスストレージのサポートを提供しています。
・HPC-HCI(vSAN)
HPC基盤においては、高性能を担保するために専用の外部ストレージ(Lusterなど)を採用することが一般的です。VMwareでは、これまで汎用的な仮想基盤での採用が中心であったHCI(vSAN)について、HPC用途でも採用可能なよう、HPCテクノロジーのサポート(NVMe/PMEM/RoCEなど)を進めています。
③GPU
HPC基盤に求められるGPUテクノロジーの概要について、以下にてご説明いたします。
・Bitfusion
GPUについて、これまでvGPUなど一つのGPUリソースを仮想的に分割し、有効活用する技術は提供されていたものの、基本的には物理サーバの筐体内に搭載されていたため、GPUを割り当てた仮想マシンが移動した際の制御や、物理サーバのスロット数など、物理的な制約に該当することが多くありました。
これに対しBitfusionは、ネットワーク経由でリモートにあるGPUリソースを任意のボリューム(サイズ)でマッピングすることが可能です。これにより、物理的な制約から解放され、かつ、vGPUのようにGPUリソースを仮想的に柔軟にマッピングすることが可能となります。
・GPGPU/HPC-VDI
vSphereでは、GPGPUやHPC-VDIの実現を目的として、様々なGPU割り当て方式を提供します。最近では、NVDIA Grid vGPUやMIG(※5)、AMD MxGPUなど一つのGPUリソースを論理分割し有効活用を図る技術の採用が、GPGPU/HPC-VDI共に増えています。
HPC事例とパートナーシップ
本章では、VMwareソリューション(vSphereなど)が採用されたHPC事例と、他社様との代表的なパートナーシップについてご紹介いたします。
① データ活用社会創生プラットフォーム(mdx)事例(HPC仮想基盤) https://www.u-tokyo.ac.jp/focus/ja/press/z0310_00027.html https://pr.fujitsu.com/jp/news/2021/03/9.html
本事例は、国内の9大学2研究所が共同運営する、データ活用にフォーカスした大規模HPC仮想基盤であり、VMwareのHPC事例としても、最大規模を誇ります。 データの入出力等の様々な目的に使用できる汎用ノード群と、機械学習等の演算を高速に処理できる演算加速ノード群を約500node有し、Society 5.0実現に貢献します。 また、簡単にデータ分析や共有などの利活用を行えるインタフェースやサービスも提供することで、情報技術に詳しくない利用者でも容易に大量のデータの高度な分析が可能になり、既存の情報学の枠を超え、社会課題に対応してデータを活用する新たな応用と研究領域の創生につなげることを目的としています。
② 東京工業大学様 TSUBAME事例(HPC-VDI) https://www.titech.ac.jp/news/2019/045059
東京工業大学様が運営するスパコン「TUBAME3.0」を、作業場所にとらわれずリモートから安全に利用するためのVDI基盤として、VMware Horizon + vGPU(NVIDA V100)が導入されています。シミュレーションにより生成された膨大な出力データをVDI上で処理することで、手元のネットワークや端末性能に依存することなく、安定した教育環境を実現しています。
③ 成城大学様 HPC-HCI(vSAN)事例
https://vmware-juku.jp/casestudy/seijo/
成城大学様の学術系仮想基盤に、vSAN + NVMe SSD(Intel Optane)が採用されています。NVMe SSDの採用によりI/Oのレイテンシが大幅に改善され(ミリ秒→マイクロ秒)、アプリケーションパフォーマンスの改善に大きく寄与しています。
④ NVIDIA様とのパートナーシップについて
https://www.vmware.com/jp/partners/global-alliances/nvidia.html
VMwareとNVIDIAは、AIやML、テレワーク(VDI)などの領域でグローバルアライアンスを締結しています。このアライアンスでは、共同で2つのソリューションを開発することを目指しています。
1つ目があらゆるクラウドプラットフォームのAI/MLに対する最適化で、この中ではVMwareコンテナ(Tanzu)の仮想GPU対応や、GPU周辺技術であるGPU DirectなどのVMwareクラウド基盤でのサポートが含まれています。
2つ目は、NVIDIAが買収したMellanox社のNICを活用したSmartNIC(※6)の開発です。Smart NICはこれまで仮想基盤側で行われてきたネットワークやストレージI/O処理をNIC側にオフロードするための仕組みであり、パフォーマンスの観点で最も考慮が必要な各種I/O処理をHW側にオフロードすることを可能とします。
情報収集ついて
HPCテクノロジーの情報に関して、年々、外部に公開されている情報や事例は増えてきているものの、HPC向けの仮想化技術はまだまだ情報が少ない状況であり、情報収集に苦労される方が多いのが現状ではないでしょうか。本章では、これからHPCテクノロジーの情報収集をするにあたり、皆様の参考になるサイトなどについて、ご紹介いたします。
■VMware Blog(https://blogs.vmware.com/)
VMwareソリューション全般にわたるBlogサイトであり、HPC関連の記事も多く投稿されています。また、テクノロジーの詳細だけではなく、パフォーマンスレポートなども公開されております(※7)。本記事のキーワードなどを用いて、是非一度、検索してみてください。
■VMworld(https://www.vmware.com/vmworld/en/index.html)
毎年秋に開催されるVMware最大の年次カンファレンスであり、様々なテーマに沿って最新の情報が公開されます。HPC関連のセッションも多くあり、オンラインでも視聴が可能ですので、今年も開催されるVMworld2021に、ぜひ登録をしてみてください!
(一部のセッションについては、資料のダウンロードも可能です)
その他、製品ドキュメントなどでも多くの情報が、日本語版含めて、公開されております。技術的に不明な情報があれば、ぜひ製品ドキュメントも検索してみてください。
参照資料
※1 : 富岳 スーパーコンピューター性能世界一位
https://www.riken.jp/pr/news/2020/20201117_2/
※2 : HPCI
https://www.mext.go.jp/a_menu/kaihatu/jouhou/hpci/1307375.htm
※3 : VMware Compatibility Guide https://www.vmware.com/resources/compatibility/search.php
※4 : vSphere Luster Storage Connection
https://www.hpcwire.jp/archives/6428
※5 : NVIDIA MIG(Multi-instance GPU)
https://www.nvidia.com/ja-jp/technologies/multi-instance-gpu/
※6 : SmartNIC(Project Monterey)
https://www.vmware.com/jp/company/news/releases/2020/vmw-vmware-project-monterey_100120.html
※7 : Sample Performance Report(Bitfusion Performace Report)
https://blogs.vmware.com/apps/2019/08/machine-learning-leveraging-nvidia-gpus-with-bitfusion-on-vmware-vsphere-part-2-of-2.html