見出し画像

OCP TAP: データセンターネットワーク同期ユースケースと要件 2024年6月19日

概要

中国移動通信研究所の李彦涵博士は、その講演でデータセンターネットワークにおける時間同期の重要性を強調し、PTPを利用した新しい同期プロトコルを紹介しました。講演では、分散コンピューティング、データベース管理、データ伝送、遅延管理など、データセンターの性能と効率を向上させるためのさまざまなユースケースも示されました。


主要内容

紹介

  • 講演者: 中国移動通信研究所の運送ネットワークセンター主任、李彦涵博士。

  • 重点: データセンターネットワークの時間および周波数同期ソリューション。

主要議題

データセンターの背景とトレンド

  • 急速な発展: コンピューティングおよび通信ネットワークの急速な発展。

  • 需要の増加: 単一データセンターの容量の制限により、複数の建物間での分散コンピューティングの需要が増加。

  • AIコンピューティング: 一般的なコンピューティングからAIコンピューティングへの進化、2030年までにAIコンピューティングが総コンピューティング量の33%を占めると予測され、今後10年間で500倍の成長が見込まれる。

  • 中国移動データセンターの規模: 4つの地域、複数のセンターノード、および1500以上のエッジノードを含む。データセンター間の光伝送ネットワークは400Gbpsに達し、総コンピューティング能力は10 EFLOPSを超える。

データセンター間接続(DCI)技術のトレンド

  • 低コストと大容量: インターフェース帯域幅は200Gから1Tを超えるまでに発展。

  • 最適化目標: 電気交換を減らし、遅延を低減するために光交換を使用し、柔軟な帯域幅の拡張を実現。

同期ユースケース

  1. 分散コンピューティング: 高精度の時間同期により、ネットワークの混雑を減らし、タスクのスケジューリングを最適化することで、AIモデルのトレーニング効率を大幅に向上させることができます。

    • 課題: 現在のデータセンターは主にNTPに依存しており、その精度は限定的です。

    • 解決策: PTPを導入してより高精度な時間同期を実現。

    • 要件: データセンター内部またはテレコムネットワークを介して時間源を更新し、データセンターに適したPTPプロトコルを開発。建物間で最大6ホップ、単一データセンター内で最大3ホップ。

  2. 分散データベース: 正確な時間同期により、トランザクションのコミットに必要な遅延保護を減らし、データベースのスループットを向上させることができます。

    • 課題: トランザクションのコミットプロセスでは厳格な時間順序が必要です。

    • 解決策: PTPを採用して時間同期精度を向上。

    • 要件: すべてのデータベースノードのクロックを同期させ、読み書き操作間の保護帯を減らす。絶対および相対時間精度が必要で、優れた時間保持性能が求められる。

  3. データ転送: 時間に敏感なデータ伝送により、正確な時間ウィンドウ内でデータ伝送をスケジュールすることで、転送効率を向上させ、遅延を減らすことができます。

    • 課題: 現在のネットワークデバイスとプロトコルは高精度な時間同期を実現するのが難しい。

    • 解決策: 新しい時間同期プロトコルとデバイスを開発し、時間に敏感なデータ伝送をサポート。

    • 要件: ネットワークデバイスに時間同期機能を実装し、データパケットを予定された時間内に送信することを確保。スイッチは境界クロックまたはTC+をサポートする必要がある。

  4. 遅延管理: 高精度の時間同期により、正確な一方向遅延管理が可能となり、パス選択と計算効率を最適化することができます。

    • 課題: 一方向遅延測定には高精度の時間同期が必要です。

    • 解決策: PTPを採用して高精度の時間同期を実現。

    • 要件: データセンターに適したPTPプロトコルを開発し、高精度の遅延管理をサポート。スイッチは境界クロックまたはTC+をサポートする必要がある。

技術的な課題と解決策

  • データセンター同期ネットワークのクライアント数は1万を超える可能性があり、従来のネットワークよりもはるかに多い。

  • 時間源を更新する2つの方法:データセンター内にGNSS受信機を設置するか、テレコムネットワークから更新する。

  • データセンターネットワークは時間経路の配置に対してより高い信頼性と短い切り替え時間を要求する。

討論と問題

  • 透明クロックと境界クロック: 透明クロックと境界クロックを使用することで、時間同期の精度と信頼性を向上させることができます。

  • 集中スケジューリング: AIクラスターで集中スケジューラーを使用し、時間に敏感な集団スケジューリングによって効率を向上。

  • 一貫性と相互運用性: 異なるPTPプロファイルの一貫性と相互運用性は、高精度な時間同期を実現するために重要です。

  • Meta社の経験: PTPの簡素化、厳格なユニキャストの使用、透明クロックの使用に関する経験を共有。

  • NTPとPTPの比較: PTPはより高精度を提供するが、NTPは場合によってはより安定していることを強調。

  • MITのFastpassシステム: 時間に敏感なスケジューリングに関連している可能性がある。

未来の方向性

  • 時間同期とデータセンターサービスの結びつきをさらに研究。

  • 時間に基づくデータ転送メカニズムと遅延管理戦略を探索。

結論

講演は、時間同期がデータセンターネットワークの性能と効率を向上させる上で重要な役割を果たすことを強調しました。PTPを導入し、新しい同期プロトコルを開発することで、分散コンピューティング、データベース管理、データ伝送、遅延管理の分野で大幅な性能向上が期待できます。
講演の完全な動画を視聴するには、YouTubeのリンクを訪れてください。


英語に苦手方はぜひ以下の記事を合わせてご参照ください


いいなと思ったら応援しよう!