現代のAIワークロードが要求するのは、これまでにないデータスループットと、大規模データセットへの低レイテンシーアクセスです。NVMe SSDとGPU間のデータ移動をCPUに依存する従来のストレージアーキテクチャーでは、GPUの演算能力に追いつくのは困難です。Solidigm™ D7-PS1010などのデータセンター向けSSDは、最大14,500 MB/秒の連続読み出し速度を実現しますが、その潜在能力を最大限に引き出すには、GPUがローカルおよび分散型リモートシステム間でストレージと連携する方法について再考する必要があります。
NVIDIA GPUDirect Storage(GDS)は、GPUとNVMe SSD間の直接メモリアクセス(DMA)を可能にすることで、CPUのボトルネックを解消します。NVIDIA Magnum IO SDKの一部であるGDSは、CUDAなどのフレームワークと連携してCPU/RAMデータステージングをバイパスすることでレイテンシーを低減し、重要な管理タスクで使えるようにCPUリソースを解放します。
GDSはローカルストレージへのアクセスを最適化しますが、現代のAIインフラでは、ストレージを個々のGPUノードから切り離すスケーラブルなソリューションが求められています。NVIDIAデータ処理ユニット(DPU)は、ストレージとネットワークタスクをオフロードすることでこのギャップを埋め、DPUのSNAPフレームワークを使用したリモートNVMe-over-Fabric(NVMe-oF)エミュレーション1を実現します。Solidigm PCIe Gen5 SSDは、高速ファブリックを介してリモートドライブとして仮想化できるため、GPUが分散ストレージプールにアクセスすることが可能となります。このアーキテクチャーは、GDSのダイレクトデータパスとDPUによるファブリックの拡張性を組み合わせ、AIワークロード向けの統合ソリューションを実現します。
ハードウェア
ソフトウェア
2つのデータパスを比較
1. GDSパス:GPUとSSD間のダイレクトDMA転送。
2. 従来型パス:データはSSD→CPU/RAM→GPUの順に移動
| ドライブ | D7-P5520 - 7.68TB(PCIe Gen4) | |||
|---|---|---|---|---|
| テスト | GDSパス | CPU-GPU(従来型パス) | ||
| IOサイズ | スループット(GiBps) | CPU_USR(%) | スループット(GiBps) | CPU_USR(%) |
| 64KiB | 4.35 | 0.14 | 4.30 | 0.92 |
| 128KiB | 5.21 | 0.08 | 5.18 | 0.56 |
| 512KiB | 6.50 | 0.03 | 6.51 | 0.20 |
| 1024KiB | 6.59 | 0.02 | 6.64 | 0.12 |
| 4096KiB | 6.62 | 0.01 | 6.63 | 0.06 |
表1. Solidigm D7-P5520 FW:9CV10330(U.2、7.68TB、PCIe 4.0)
| ドライブ | D7-PS1010 - 7.68TB(PCIe Gen5) | |||
|---|---|---|---|---|
| テスト | GDSパス | CPU-GPU(従来型パス) | ||
| IOサイズ | スループット(GiBps) | CPU_USR(%) | スループット(GiBps) | CPU_USR(%) |
| 64KiB | 12.38 | 0.51 | 12.70 | 3.15 |
| 128KiB | 13.20 | 0.27 | 13.48 | 1.64 |
| 512KiB | 13.41 | 0.04 | 13.48 | 0.46 |
| 1024KiB | 13.48 | 0.02 | 13.48 | 0.29 |
| 4096KiB | 13.48 | 0.01 | 13.48 | 0.14 |
表2. Solidigm D7-PS1010 FW:G77YG100(E1.S、7.68TB、PCIe 5.0)
本項では、NVIDIA Magnum IO GPUDirect StorageとNVIDIA NVMe SNAPを含む NVIDIA Magnum IOアーキテクチャーにおけるSolidigm SSDの性能について述べます。1
DPUは、インフラタスク(ネットワーク、ストレージ、セキュリティ)をCPUからオフロードするために設計された専用プロセッサーです。NVIDIA Bluefield DPUは、マルチコアArm CPU、高速ネットワーク、ハードウェアアクセラレータを組み合わせて、データセンターの効率を最適化します。
SNAPは、リモートSSDをローカルNVMeドライブとして仮想化するDPUアクセラレーションフレームワークです。NVIDIA DPU上のコンテナで動作するSNAPは、ローカルNVMeコマンドをNVMe-oFプロトコルパケットに変換し、リモートストレージとGPUメモリ間の直接RDMA転送を可能にします。
NVMe-oFは、InfiniBandなどのネットワークを介してリモートストレージデバイスにアクセスするためにNVMeプロトコルを拡張したものです。これにより、共有ストレージプール、スケーラブルなリソース割り当てが可能になり、GPUやサーバーは、高性能SSDをローカルに接続しているかのように扱うことができます。
ストレージサーバー
コンピューティングサーバー
2つのデータパスを比較します
| IOサイズ | PCIe 4.0 – Solidigm D7-D5520 7.68TB FW: 9CV10330 | PCIe 5.0 – Solidigm D7-PS1010 7.68TB FW:G77YG100 | ||
|---|---|---|---|---|
| 直接設定(GiBps) | リモート設定(GiBps) | 直接設定(GiBps) | リモート設定(GiBps) | |
| 64KiB | 4.42 | 4.14 | 12.38 | 10.42 |
| 128KiB | 5.27 | 5.07 | 13.20 | 13.16 |
| 512KiB | 6.50 | 6.45 | 13.41 | 13.50 |
| 1024KiB | 6.58 | 6.70 | 13.48 | 13.85 |
| 4096KiB | 6.46 | 6.50 | 13.48 | 13.85 |
表3. PCIe 4.0とPCIe 5.0の比較結果
SNAPキューがSolidigm D7-PS1010 E1.S 7.68TBに与える影響
| SNAPキュー: | 1 (GiBps) |
7 (GiBps) |
15 (GiBps) |
23 (GiBps) |
31(GiBps) |
|---|---|---|---|---|---|
| 64KiB | 6.77 | 8.06 | 9.48 | 9.78 | 10.68 |
| 128KiB | 9.18 | 11.1 | 12.68 | 12.73 | 12.93 |
| 512KiB | 9.44 | 11.15 | 12.53 | 13.06 | 13.09 |
| 1024KiB | 9.56 | 12.25 | 12.59 | 13.15 | 13.34 |
| 4096KiB | 10.57 | 12.56 | 13.48 | 13.67 | 13.73 |
表4. SNAPキューの影響
NVIDIA Bluefield DPUのプロトコルオフロードとRDMAはファブリックのオーバーヘッドを最小限に抑え、ローカルに近いスループットを実現します。PCIe Gen4とPCIe Gen5のグラフを見るとわかるように、リモートストレージ設定のスループットはローカルストレージ設定のスループットと同等です。
また、ブロックサイズが大きくなるにつれて、リモートストレージ設定のスループットはローカルストレージ設定と比較してわずかに増加する一方で、ブロックサイズが小さい場合は、ファブリック上のオーバーヘッドが高くなるため、リモートストレージ設定のスループットはわずかに低くなることも確認できます。
リモートストレージ設定を有効化する際は、SNAPキューも考慮すべき重要な要素です。SNAPキューの数を32に増やすことで、同時処理されるI/Oリクエストが増加し、潜在的なボトルネックが軽減されるため、さまざまなキューサイズに関するグラフに示されている通り、スループットが向上します。
本ホワイトペーパーでは、NVIDIA GPUDirect StorageをSolidigm PCIe Gen5 SSDとDPU駆動のNVMe-oFエミュレーション1と組み合わせることで、リモートストレージがローカルNVMeドライブと同等のパフォーマンスを実現できることについて述べています。CPUのボトルネックを解消し、高速InfiniBandファブリック上のRDMAを活用することで、このアーキテクチャーは、AIの加速を損なうことなく、スケーラブルでコスト効率の高いAIインフラを実現します。これは、中央集約型ストレージプールがGPUワークロードの効率を維持しつつ、ローカルドライブに取って代わることができることを示しています。
組織は、ストレージをコンピューティングノードから分離することで、ハードウェアの乱立と運用コストを削減できます。また、DPUオフロードと合理化されたデータパスによる省エネ効果により、持続可能な拡張が実現します。このアプローチは、共有データセットへの低レイテンシーアクセスが重要な分散トレーニングワークフローやエッジ推論の展開において、特に大きな効果を発揮します。
今後、800Gネットワーク、DPUアクセラレーションによる計算ストレージ、KubernetesやMLフレームワークとの深い統合が進むことで、このアーキテクチャーは次世代AIデータセンターの基盤としてさらに確固たるものとなるでしょう。
組織は、大量データワークロード向けにSolidigm PCIe Gen4および/またはGen5 SSDを採用し、レイテンシーを最小限に抑えるためにRDMA対応ファブリックを導入することで、GDSとDPUの採用を検討し、AIインフラの将来性を確保できます。この統合アーキテクチャーにより、企業はパフォーマンスとコスト効率を維持しながらGPUリソースを拡張することが可能となります。
Ashwin Pai(アシュウィン・パイ)は、Solidigmのシステム検証エンジニアで、ソフトウェア、ハードウェア、システムエンジニアリング分野で10年近くの経験を有しています。注力しているのは、AIとデータ集約型ワークロード向けに最適化されたものを含む、多様なプラットフォームにおける次世代SSD技術の検証です。Ashwinは、高度なAI手法と画期的なイノベーションを活用してAI駆動環境におけるSolidigm SSDの機能を強化するため、部門横断的なチームと協力しています。VES工科大学で電子工学の学士号を、ノースカロライナ州立大学でコンピュータ工学の修士号を取得しています。
Akhil Srinivas(アキール・シュリニヴァース)は、Solidigmの電気・システムエンジニアです。業界をリードするエコシステムベンダーと連携し、最先端のストレージソリューション向けにSolidigm SSDの検証を行っています。新たに登場するAI技術と先駆的なイノベーションを活用し、Solidigm SSDを次世代プラットフォームの重要なコンポーネントとして位置付け、AI分野におけるパートナーシップの強化に取り組んでいます。仕事以外では料理の探求に没頭し、全米で人気のフードトラックやレストランを訪れています。Akhilは、インドのRV工科大学で電気通信工学の学士号を、カリフォルニア大学デービス校で電気工学とコンピュータ工学の修士号を取得しています。
1. GDSとDOCAの設定とインストールについては、以下のリンクを参照しています。
2. 実行されたワークロード
<T>はテストの継続時間を秒単位で指定します
<s>はデータセットのサイズを設定します
<I>は反復回数を示し、0は通常、テスト期間の終了までの継続的または無制限の反復を意味します
<x>は転送タイプを定義し、0は通常、読み出し操作を表します
<D>はテストファイルが保存されるディレクトリパスを設定します
<w>はテスト中に使用するワーカースレッド数を指定します
<d>は使用するGPUデバイスIDを示します。<i>はI/Oサイズを設定します
3. サーバー管理コンソールを使用してサーバー消費電力を計測しました。
1. NVIDIA DOCA SNAPにおいて、エミュレーションとは、ホストシステムに対して実際のハードウェアと同様の動作をするソフトウェアベースのNVMeデバイスの作成を指します。
©2025, Solidigm. 「Solidigm」は、米国、中華人民共和国、シンガポール、日本、欧州連合、英国、メキシコ、その他の国における、SK hynix NAND Product Solutions Corp(商号:Solidigm)の登録商標です。
その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
Solidigm製品は、予告なく仕様や説明が変更されることがあります。
テストでは、特定のシステムでの個々のテストにおけるコンポーネントのパフォーマンスを文書化しています。
ハードウェア、ソフトウェア、システム構成などの違いにより、実際のパフォーマンスは掲載されたパフォーマンステストや評価とは異なる場合があります。
購入を検討される場合は、ほかの情報も参考にして、パフォーマンスを総合的に評価することをお勧めします。
文書化された結果は暫定的なものであり、情報提供のみを目的としています。これらの数値や記述は最終的なものでも公式なものでもありません。
ドライブはエンジニアリングサンプルとみなされます。本番環境に関するガイダンスについては、ロードマップを参照してください。