Solidigm™ソリッドステートドライブによるAIワークロードの最適化

MLPerf推論、トレーニング、ストレージのパフォーマンスに関する知見

概要

人工知能（AI）ワークロードの進化に伴い、トレーニングと推論タスク全体のパフォーマンスを最適化するための効率的なストレージとコンピューティングソリューションの需要が高まっています。本調査では、MLPerfベンチマーク（Inference v4.1、Training v4.1、Storage v1.0）を活用し、Solidigm SSD、具体的にはD7-PS1010（PCIe Gen5）、D5-P5336（PCIe Gen4）、D3-S4520（SATA）がAIの効率に与える影響を評価しました。結果として、推論パフォーマンスは主にGPU機能とメモリ帯域幅に依存するため、ディスク構成による影響はほとんど見られず、SSDを追加しても大幅な向上は見られませんでした。一方で、トレーニングワークロード、特にDLRMv2のようなデータ集約型モデルでは、高速NVMe SSDの使用で大幅なパフォーマンス向上が見られました。ディスク数が少ない構成ではD7-PS1010がD5-P5336を上回りましたが、拡張に伴い向上幅は頭打ちとなりました。さらに、MLPerf Storageのベンチマークは、SATAと比較したNVMeの優位性を裏付けており、D7-PS1010はD5-P5336よりも少ないディスク数でピークスループットを達成しました。一方、D3-S4520は最新AIの要求に応えるには不十分であることがわかりました。これらの結果は、トレーニングには高性能NVMeを使用し、推論にはコンピューティング最適化に重点を置くといった、ストレージ戦略をカスタマイズする必要性を明確に示しています。AIシステムの効率を最大化するには、インフラのバランスが極めて重要であることが明らかです。

はじめに

人工知能（AI）ワークロードの複雑化が進む中、システムパフォーマンスに対する要求はかつてないほど高まっており、ストレージとコンピューティングコンポーネントが効率性に与える影響の複雑で微妙な差異を理解することが求められています。MLPerfベンチマークスイート（Inference、Training、Storage）は、多様なハードウェア構成におけるAIシステムパフォーマンスを評価するための標準化されたフレームワークを提供し、ワークロード最適化に向けた重要な知見をもたらします。

MLPerf Inferenceはリアルタイム予測タスクを評価します。このタスクでは、効率性はモデルの（通常はメモリ内の）実行速度に依存し、ディスクパフォーマンスは二次的な要素となります。一方で、MLPerf Trainingは、AIモデルをゼロから構築するプロセスを検証します。特に推奨システムや画像処理などのタスクにおいて膨大なデータアクセス要件があるため、ストレージのスループットに大きく依存している段階です。これらを補完する形で、MLPerf StorageベンチマークはAI向けのデータパイプライン下でのストレージパフォーマンスを分離し、データ集約型アプリケーションにおけるスケーラブルで高スループットなソリューションへのニーズの高まりに対応します。

本調査では、Solidigm NVMe SSD（D7-PS1010、D5-P5336、D3-S4520）を使用し、QuantaGrid D74H-7UおよびD54U-3Uの2つのサーバープラットフォームにおいて、ストレージ構成とAIパフォーマンスの相互作用を調べました。調査結果によれば、推論ワークロードは演算処理とメモリに制約されるため、ストレージ構成の強化による効果はごくわずかである一方、トレーニングとストレージのベンチマークでは、特に高速なデータ取得を必要とするDLRMv2のようなモデルにおいて、NVMe SSDが大きな優位性を示すことが明らかになりました。これらの結果を分析することで、この調査では、トレーニングシナリオにおける高性能ストレージの重要な役割と推論におけるGPUおよびメモリ最適化の重要性が浮き彫りになり、効率的なAIインフラ設計のための実践的なガイダンスを提供しています。こうした知見は、拡張性と持続的なパフォーマンスを達成するために、ワークロード固有のニーズに合わせてハードウェアの選択を調整することについて、学術界と産業界のステークホルダーに情報を提供することを目的としています。

ベンチマークの設定と方法

ハードウェアとソフトウェアの構成

ストレージ構成がAIワークロードに与える影響を評価するため、2つのサーバープラットフォームでMLPerf Inference、Training、Storageのベンチマークを実施しました。

システム	QuantaGrid D74H-7U	QuantaGrid D54U-3U
CPU	Intel Xeon Platinum 8480+ 56コア x 2	Intel Xeon Platinum 8470 52コア x 2
RAM	2TB (DDR5-4800 64GB x 32)	2TB (DDR5-4800 64GB x 32)
OSディスク	Samsung PM9A3 3.84TB x 1	Samsung PM9A3 1.92TB x 1
データディスク	Solidigm D7-PS1010 U.2 7.68TB x 8 Solidigm D5-P5336 U.2 15.36TB x 8	Solidigm D7-PS1010 U.2 7.68TB x 8 Solidigm D5-P5336 U.2 15.36TB x 8 Solidigm D3-S4520 SATA 7.68TB x 8
アクセラレータ	H100 SXM5 80GB x 8	H100 PCIe 80GB x 4
BIOS設定	プロファイル：パフォーマンス LP [Global]を有効化：すべてのLP SNC：無効
OS	Rocky Linuxリリース9.2（Blue Onyx）
カーネル	5.14.0-362.18.1.el9_3.x86_64	5.14.0-284.11.1.el9_2.x86_64
フレームワーク	GPUドライバー550.127.08 CUDA 12.4 + GDS 12.4	GPUドライバー550.90.07 CUDA 12.4

表1：SolidigmのさまざまなNVMeソリューションを搭載したQuantaGrid D74H-7UおよびD54U-3Uの構成。

	Solidigm™ D7-PS1010（フォームファクター：U.2）	Solidigm™ D5-P5336（フォームファクター：U.2）	Solidigm™ D3-S4520（フォームファクター：U.2）
	画像	画像	画像
容量	7.68TB	15.36TB	7.68TB
リソグラフィー・タイプ	176L TLC 3D NAND	192L QLC 3D NAND	144L TLC 3D NAND
インターフェース	PCIe 5.0 x4、NVMe	PCIe 4.0 x4、NVMe	SATA 3.0 6Gb/s
連続読み出し（最大）	14,500 MB/s	7,000 MB/s	550 MB/s
連続書き込み（最大）	9,300 MB/s	3,000 MB/s	510 MB/s
ランダム読み出し（最大）	2,800,000 IOPS (4K)	1,005,000 IOPS (4K)	86,000 IOPS (4K)
ランダム書き込み（最大）	400,000 IOPS (4K)	24,000 IOPS (4K)	30,000 IOPS (4K)

表2：SOLIDIGM PS1010、P5336、S4520の仕様

両プラットフォームにおいてMLPerf"Inferenceテストを実施し、各システムをServerモードとOfflineモードで評価して、実際のAI推論環境をシミュレートしました。ベンチマークでは、1台、2台、4台、8台のドライブを使用した異なるストレージ構成におけるパフォーマンスを評価し、拡張性とスループット効率を分析しました。推論ワークロードは主にメモリとGPUのパフォーマンスに依存することを考慮し、ディスク数の増加がパフォーマンスに測定可能な影響を与えるかどうかを判断することを目的としました。

MLPerf TrainingおよびStorageのベンチマークでは、トレーニングワークロードにQuantaGrid D74H-7UとD54U-3Uの両方を使用し、ストレージパフォーマンス評価ではD54U-3Uも使用しました。トレーニングテストでは、ストレージ構成とAIモデルパフォーマンスの関係を検証しました。ストレージベンチマークでは、AI向けのワークロードにおけるディスクのスループットと効率性を分析し、SATA代替品に対するNVMe SSDの利点を評価しました。

2台、4台、8台のドライブを利用する構成では、読み出し・書き込み速度を最適化し、SSD間での効率的なデータ分散を確保するため、ソフトウェアRAID0設定を実装しました。SSDのパフォーマンスを最大限に活用するため、CPUのPCIeレーンまたはPCIeスイッチを介して、すべてのNVMe SSDを直接接続しました。RAIDコントローラーによる潜在的な帯域幅制限を回避するため、ハードウェアRAIDは使用せず、AIワークロードがPCIeレーンの制約なしにストレージスループットを最大化できるようにしました。

MLPerfワークロード

本項では、推論、トレーニング、ストレージの各ワークロードにおけるAIシステムのパフォーマンスを評価するためにMLCommons Associationが開発したMLPerfベンチマークスイート（Inference v4.1、Training v4.1、Storage v1.0）の概要を説明します。このスイートは、ハードウェアとソフトウェアの効率性を評価するために標準化された再現性のある方法を提供し、明確な区分とルールを通じてフェアネス、比較可能性、柔軟性を確保します。

MLPerf Inference v4.1

MLPerf Inference v4.1は、実行速度、レイテンシー、精度に焦点を当て、リアルタイム推論タスクにおけるAIシステムのパフォーマンスを測定するために設計されました。標準化されたシステム構成とフレームワークを用いて、BERT[1]、ResNet-50[2]、RetinaNet[3]、3D-Unet[4]、DLRMv2[5]、GPT-J[6]、Llama2-70B[7]、Mixtral-8x7B[8]、Stable Diffusion XL（SDXL）[9]など、多様なワークロードを評価します。このスイートは、低電力のエッジデバイスから高性能データセンターサーバーまでのプラットフォームに対応し、モデルの精度が事前定義済みの基準を満たすことを保証しつつ、レイテンシー、スループット、効率性といった主な指標を定量化します。ビジョン、言語、コマース、生成、グラフの各ドメインにおける開放性と比較可能性を促し、多様な導入環境に対応できます。

主な定義

MLPerf Inferenceにおける重要な用語の例を以下に挙げます。

サンプル：推論の単位。画像、文章、ノードIDなど（例：ResNet-50の場合は1枚の画像、BERTの場合は1つの手順）。
クエリ：テスト対象システム（SUT）にまとめて発行するN個のサンプルの集合。Nは正の整数（例：クエリあたり8枚の画像）。
クオリティー：モデルが正確な出力を生成する能力。
テスト対象システム（SUT）：パフォーマンス測定の対象となる、ハードウェア（例：プロセッサー、アクセラレータ、メモリ）とソフトウェアリソースの定義済みセット。
リファレンス実装：MLPerfが提供する標準的な実装。すべての有効なクローズド区分の提出はこれに準拠する必要がある。

テストシナリオ

MLPerf Inferenceには、以下の表に示す通り、実環境の推論ワークロードを反映した4種類のテストシナリオが含まれる。

シナリオ	目的	ユースケース	指標
シングルストリーム	1つのクエリストリームのレイテンシーを評価する	音声認識やライブ動画分析などのリアルタイムアプリケーション	各クエリの処理にかかる時間
マルチストリーム	複数の同時ストリームにおけるパフォーマンスをテストする	マルチユーザーシステム。動画ストリーミングやチャットボットなど	同時クエリにおけるレイテンシーとスループット
サーバー	常に変化するオンラインクエリ負荷の処理を評価する	変動する需要に対応するクラウド推論サービス	レイテンシーの制約下における毎秒クエリ数（QPS）
オフライン	大規模バッチ処理のスループットを測定する	データセット分析やメディアインデックス作成などのバルクタスク	所定の時間内で処理した総クエリ数

提出区分

MLPerf Inferenceには、「クローズド」と「オープン」の2つの区分があります。クローズド区分では、リファレンス実装または代替実装と同等であることが必須で、量子化のためのキャリブレーションは可能ですが、再トレーニングは禁止されています。オープン区分では、報告された精度とレイテンシーの制約条件のもと、任意の前処理・後処理と再トレーニングを含むモデルの使用が認められており、イノベーションを促進しますが、比較可能性は犠牲になります。

方法とワークフロー

MLPerf Inferenceのプロセスでは、クエリのシミュレーション、レイテンシーの追跡、精度の検証、指標の計算を行うために、Pythonバインディングを備えたC++ツールであるLoad Generator（LoadGen）を使用します。LoadGenは、論理ソースからのクエリをシミュレートしてプロセッサー上で動作し、帯域幅要件に準拠してトレースをDRAMに保存します。図1は、構成から検証段階までのMLPerf Inferenceの簡略化したワークフローです。検証に合格せず、テスト対象システム（SUT）の再構成を必要とする失敗シナリオも組み込まれています。

図1. 検証段階までの簡略化したMLPerf推論ワークフロー

これらのシナリオは、レイテンシーが重要であるアプリケーションやスループット重視のアプリケーションを包括的にカバーしており、統計的有効性を維持しつつ、早期の停止基準を設けて実行時間を短縮できます。

ルールとガイドライン

ルールはフェアネスを確保し、一貫したシステムとフレームワーク、コードのオープンソース化、非決定性の固定シードへの制限、ベンチマーク検出や入力ベース最適化の禁止を要求します。再現性は必須であり、特にクローズド区分の提出については、監査でコンプライアンスを検証します。

ユースケースと影響

MLPerf Inferenceは、エッジコンピューティング、クラウドインフラ、専用ドメインに対応し、リアルタイム推論と拡張性を最適化し、効率的なAIソリューション開発を推進します。

MLPerf Training v4.1

MLPerf Training v4.1は、さまざまなMLタスクでの実行速度として定義されるトレーニングパフォーマンスを測定するための標準化されたベンチマークを確立します。BERT、DLRMv2、GNN（R-GAT）[10]、Low-Rank Adaptation（LoRA）[11]、Stable Diffusion（SD）[12]、Single-Shot Detector（SSD）[13]といったワークロードを評価し、定義済みルールを通じてフェアネスを確保します。パフォーマンスとクオリティーが主要な指標であり、適合しているとみなされる結果はMLPerf商標の対象となります。このスイートは、リファレンス結果に対して正規化されたシステム、フレームワーク、ベンチマーク、実行を網羅しています。

主な定義

主な用語を以下に挙げます。

パフォーマンス：トレーニングの実行速度。
クオリティー：正確な出力を生成するモデルの精度。
システム：MLフレームワークを除く、ランタイムに影響を与えるハードウェアやソフトウェア。
フレームワーク：MLライブラリの特定のバージョン。
ベンチマーク：クオリティー目標に向けたトレーニングで解決する、MLの抽象的な問題。
実行：初期化からクオリティー目標達成までの完全なトレーニング。実時間で計測。
リファレンス実装：MLPerfが提供する、ベンチマーク基準を定義する実装。

ベンチマークと区分

このスイートは、ビジョン、言語、コマース、グラフの各ドメインにまたがり、クローズド区分とオープン区分があります。クローズド区分では、比較可能性を確保するため、リファレンスの前処理、モデル、目標値が必須です。一方、オープン区分ではデータと方法に柔軟性が認められ、反復的な改善とベンチマークデータセットの整合性が求められます。

方法とワークフロー

トレーニングは、リファレンスモデル、重み、最適化ツール、ハイパーパラメータに準拠し、乱数生成（クローズド区分：ストック。mllogによるクロックシード）と数値フォーマット（クローズド区分：事前承認。例：fp32、fp16）が制限されます。データ処理によってリファレンスの一貫性を確保し、クオリティーを指定された頻度で評価します。結果は複数回の実行から導出され、リファレンス値に対して正規化します。図2は、システム定義から収束チェック段階までのMLPerf Trainingの簡略化したワークフローです。リファレンス収束ポイント（RCP）を満たさない失敗シナリオも組み込まれており、その場合、ハイパーパラメータの調整またはプロセスの再実行が必要となります。

図2. 収束チェックまでの簡略化したMLPerfトレーニングワークフロー

ルールとガイドライン

フェアネスが最優先され、ベンチマーク検出や事前トレーニング（メタデータを除く）は禁止され、再現性が求められます。リファレンス収束ポイント（RCP）により、提出結果の収束値が確実にリファレンス値と一致するようにします。監査とハイパーパラメータの借用は、パフォーマンス最適化のために認められます。

ユースケースと影響

MLPerf Trainingは、ビジョン、言語、コマースにおけるAIモデル開発を支援し、データセンター向けのトレーニングを最適化し、拡張性を向上させ、ハードウェア／ソフトウェアのイノベーションを推進します。

MLPerf Storage v1.0

MLPerf Storage v1.0は、MLワークロードに関するストレージシステムのパフォーマンスを評価します。スリープ間隔によってアクセラレータの要求をエミュレートし、データ取り込みパイプラインを分離することで、コンピューティングクラスターを使用せずにスケーラブルなテストを可能にします。ストレージの拡張性とパフォーマンスに焦点を当て、3D U-Net、ResNet-50、CosmoFlowなどのワークロードに対応します。

主な定義

主な用語を以下に挙げます。

サンプル：トレーニング用データの単位。画像、文章など（例：3D U-Netの場合は140MB/サンプル）。
ステップ：エミュレートされたアクセラレータに最初に読み込まれるバッチ。
アクセラレータ使用率（AU）：エミュレートされたアクセラレータが稼働している時間の割合。総ランタイムに対する比率で表す（例：3D U-Netの場合、90%以上）。
区分：比較可能な結果を得るためのルール（クローズド、オープン）。
DLIO：I/Oパターンをエミュレートするコアベンチマークツール。DLIO（Deep Learning I/O）[14]は、米国のアルゴンヌ国立研究所が開発したオープンソースのベンチマークスイート。元々はThetaスーパーコンピュータなどのHPCシステム向けに設計された。科学的な深層学習ワークロードのI/O動作をプロファイリングし、モデリングすることにより、DLIOは大規模で現実的なデータ取り込みパターンを正確に再現する。これにより、ユーザーは最初に本来的な演算能力を測定せずとも、大規模な分散型MLトレーニングの一般的な条件下でストレージインフラのストレステストをすることができる。
データセットの内容：フォーマットではなく、データと容量（例：3D U-Netの場合、KiTS19）。
データセットフォーマット：ストレージフォーマット（例：npz）。
ストレージシステム：ホストノードにストレージサービスを提供するハードウェア／ソフトウェア。
ストレージ拡張単位：ストレージのパフォーマンス／規模を拡大する際の最小単位（例：ノード、コントローラー）。
ホストノード：負荷を増大させる際の最小単位。シミュレーターが同様の動作をする。

ベンチマークと区分

このスイートはMLPerf Training/HPCからのI/Oパターンをシミュレートし、最小AU閾値（例：ResNet-50の場合、90%）でサンプル/秒を測定します。クローズド区分では比較可能性のためにパラメータを標準化し、変更を制限します。一方、オープン区分ではイノベーションのためにカスタマイズ（例：DLIOの変更）が認められますが、文書化が必要です。

方法とワークフロー

MLPerf StorageはDLIOを使用して合成データセット（ホストDRAMの5倍以上。キャッシュ回避）を生成し、アクセラレータ、メモリ、ステップに基づいて最小サイズを計算します。シングルホストまたは分散設定で負荷をスケーリングし、バリアを介して同期し、パフォーマンスをサンプル/秒で測定します。図3は、構成からアクセラレータ使用率（AU）閾値段階の検証までのMLPerf Storageの簡略化したワークフローです。AUの閾値を満たさない失敗シナリオも組み込まれており、その場合はストレージシステムまたは構成の調整が必要となります。

図3. AU閾値検証までの簡略化したMLPerfストレージワークフロー

ルールとガイドライン

ルールは公平性を確保し、利用可能なシステム（6か月以内の市販品）、固定シード、安定したストレージ、プリロードなし、クリアされたキャッシュ、5回の実行で5%の再現性を要求します。監査では、提供されたスクリプトを使用したクローズド区分の提出と、DLIOの変更を許可するオープン区分の提出でコンプライアンスを検証します。

ユースケースと影響

MLPerf StorageはMLトレーニング用にストレージを最適化し、ビジョンや科学技術計算などにおける大規模データパイプラインに対応し、拡張性と効率性を求めるインフラ計画の指針となります。

結果と分析

MLPerf Inference v4.1ディスク構成のパフォーマンス分析

Solidigm D7-PS1010（PCIe Gen5）、D5-P5336（PCIe Gen4）、D3-S4520（SATA SSD）を使用したMLPerf Inference v4.1のパフォーマンス評価を、さまざまなRAID0ディスク構成で実施した結果、ディスク数を増やしても推論パフォーマンスへの影響はごくわずかであることが示されました。ResNet50、RetinaNet、BERT、DLRMv2、3D-Unet、SDXL、GPT-J、Llama2-70b、Mixtralを含む、テストしたすべてのモデルにおいて、速度向上値はほぼ一定です。

掲載した図4から図8まで、D7-PS1010、D5-P5336、D3-S4520については、異なるディスク構成間で推論の速度向上が変化しないことが確認できます。これは、MLPerfの推論ワークロードが、I/Oではなく、主にコンピューティングとメモリによって制約されることを示唆しています。推論は主にメモリ内でのモデル実行を伴い、ディスクへのアクセスは最小限であるため、ストレージデバイスを追加しても測定できるようなパフォーマンス向上はありません。

さらに、D74H-7UやD54U-3Uプラットフォーム全体でもこの傾向は一貫しており、異なるSSDモデルやディスク構成間で速度向上についての大きな変動は見られません。MLPerf推論がパフォーマンス向上のためにディスクI/Oに依存しておらず、ディスクの選択がシステム全体の効率にほとんど影響を与えないことを改めて裏付けています。

特筆すべき事例として、MLPerf Inference v4.1に新たに追加されたモデルであるMixtralがあります。H100やH200 SXM5などの高性能GPU向けにNVIDIAが最適化と量子化を行ったモデルです。ただし、MixtralはD54U-3Uプラットフォーム上のH100 PCIe 80GBに完全には対応しておらず、テストから除外されています。

これらの結果は、AI推論タスクにおいては、追加の高速SSDへの投資は大きなメリットをもたらさない可能性があり、それよりも、演算アクセラレーションとメモリ効率の最適化に注力すべきであることを強調しています。

図4. D74H-7U上のSolidigm D7-PS1010によるMLPerf推論

図5. D74H-7U上のSolidigm D5-P5336によるMLPerf推論

図6. D54U-3U上のSolidigm D7-PS1010によるMLPerf推論

図7. D54U-3U上のSolidigm D5-P5336によるMLPerf推論

図8. D54U-3U上のSolidigm D3-S4520によるMLPerf推論

MLPerf Training v4.1ディスク構成のパフォーマンス分析

図9と図10は、D74H-7UでD7-PS1010およびD5-P5336システムを利用した、さまざまなストレージ構成におけるMLPerfトレーニングの速度向上パフォーマンスについての比較分析です。両図は、BERT、DLRMv2、GNN、LoRA、Stable Diffusion（SD）、Single-Shot Detector（SSD）など複数の機械学習モデルの、異なるディスク構成（1、2、4、8ディスク）における拡張性の特徴を強調しています。

図9. D74H-7U上のSolidigm D7-PS1010によるMLPerfトレーニング

図9では、ディスク数が増えるにつれてDLRMv2とGNNが顕著な改善を示しています。DLRMv2は8ディスクで1.29倍という速度向上のピークを達成し、GNNは1.10倍に達しています。その他のモデルではわずかな変化しか見られず、ディスクI/Oへの依存度が限定的であることを示唆しています。

図10. D74H-7U上のSolidigm D5-P5336によるMLPerfトレーニング

表3は、異なるストレージ構成における各モデルの相対標準偏差（RSD）を示しています。RSD値は各モデルで顕著な変動を示しており、トレーニングパフォーマンスがディスクI/O以外の要因にも影響を受けることを示唆しています。この変動性はさらに、複数回の実行におけるトレーニング収束とコンピューティング効率に影響を与える乱数シード選択の影響によって増幅します。

AIモデル / デバイス数	Solidigm D7-PS1010				Solidigm D5-P5336
AIモデル / デバイス数	8	4	2	1	8	4	2	1
BERT	7.65%	9.46%	8.03%	8.95%	5.70%	9.91%	72.50%	5.90%
DLRMv2	5.13%	7.32%	4.32%	6.91%	5.46%	5.38%	3.02%	3.71%
GNN	4.50%	3.98%	5.26%	3.69%	4.20%	6.77%	34.50%	4.14%
LoRA	6.17%	4.27%	8.17%	8.58%	6.55%	6.19%	5.48%	6.33%
SD	13.86%	11.21%	11.75%	15.39%	11.18%	11.93%	13.54%	11.40%
SSD	0.07%	10.65%	0.12%	0.22%	0.17%	0.16%	0.08%	0.04%

表3. MLPerfトレーニングにおける各AIモデルワークロードの相対標準偏差

一方で、図10は、D5-P5336システムがディスク数の増加によって大きな恩恵を受けることを示しています。特にDLRMv2では、8ディスクで最大2.51倍の速度向上を達成しています。GNNも着実な向上を示していますが、DLRMv2ほどではありません。その他のモデルでは変動はわずかで、BERTはディスク数が増加するにつれてパフォーマンスがわずかに低下しています。これらの結果は、D5-P5336システムは、特にDLRMv2のようなデータ集約型のワークロードにおいて、パフォーマンス向上に関するディスク数への依存度が高いことを示唆しています。

DLRMv2はSSDのパフォーマンスに影響を受けやすいため、このモデルに特化した追加のテストが必要です。D74H-7Uのハードウェアアーキテクチャーは、AIトレーニングの高速化にとって重要な機能であるNVIDIA GDS（GPUDirect Storage、図11参照）をサポートしています。GDSは、NVMe SSDとGPU間の直接データ転送を可能にし、システムメモリをバイパスしてCPUの関与を削減します。この最適化により、データ転送のレイテンシーが最小限に抑えられ、スループットが最大化します。特に、高速データアクセスを必要とするワークロードで効果的です。結果として、D74H-7UでのすべてのテストはGDSを有効にして実施しました。D74H-7UはNVMe SSDのみに対応しているため、D3-S4520のトレーニングテストはD54U-3Uでのみ実施しました。

図11. NVIDIA GPUDirect Storageの図

図12は、D74H-7UとD54U-3UでD7-PS1010を使用したDLRMv2のMLPerfトレーニングパフォーマンスの比較分析です。1ディスクでは両システムとも同等のパフォーマンスを示しますが、ディスク数が増加するにつれて、D74H-7U上のD7-PS1010は顕著な改善を示し、8ディスクで最大1.29倍の速度向上を達成しています。対照的に、D54U-3Uは1.00倍付近に留まっており、GDSを有効化したD74H-7Uはディスクの拡張による恩恵が大きい一方で、D54U-3UはI/O拡張の処理でアーキテクチャー上の制約があることを示唆しています。

図12. D74H-7UおよびD54U-3UでPS1010を使用したMLPerf Training DLRMv2の比較

図13は、D7-PS1010がD5-P5336を一貫して上回っていることを示しており、特にデバイス数が少ない場合にその傾向が顕著です。ディスク1台の場合、D7-PS1010でのトレーニング時間は5.04分であるのに対し、D5-P5336では9.78分と大幅に長くなっています。4ディスクでは、D7-PS1010が4.14分、D5-P5336が4.15分と、パフォーマンスの向上が安定し始めます。デバイス数が8台に増加すると、パフォーマンスの差は完全に収束し、D7-PS1010は3.92分、D5-P5336は3.90分となりました。この結果は、デバイス数が少ない設定ではD7-PS1010のPCIe Gen5の高い帯域幅が大きな利点となるものの、拡張が効率の限界に達するとその影響は減少することを示唆しています。

図13. ディスク構成におけるDLRMv2のパフォーマンス

図14では、D54U-3UシステムにおけるDLRMv2のMLPerfトレーニングパフォーマンスをさらに詳しく検証し、D7-PS1010、D5-P5336、D3-S4520のSSDを比較しています。結果は、D7-PS1010とD5-P5336が異なるディスク構成でもトレーニング時間があまり変わらない一方で、D3-S4520はディスク数の増加に伴い大幅な高速化を示しています。特に、8ディスク構成では、D3-S4520は1ディスク構成と比較して6.78倍の高速化を達成し、トレーニング時間を123.29分から18.19分に短縮しています。一方、D7-PS1010とD5-P5336は、ディスク数にかかわらずトレーニング時間が15分前後で変動し、狭いパフォーマンス範囲内に留まっています。これらの結果は、特にディスクの読み出しと書き込み速度に影響を受けやすいワークロードにおいて、ストレージの種類がAIトレーニングのパフォーマンスに重要な役割を果たすことを明らかにしています。

図14. D54U-3UでD7-PS1010、D5-P5336、D3-S4520を使用したMLPerf Training DLRMv2の比較

MLPerf Storage v1.0ディスク構成のパフォーマンス分析

MLPerf Storageベンチマークは、GPU上でのAIトレーニングをシミュレートし、主にディスクの読み出しパフォーマンスをテストします。テスト結果から、SATA SSD（D3-S4520）のパフォーマンスは明らかに不十分であり、NVMeが唯一の現実的な選択肢であることがわかります。このテストで使用した1つのサーバーでは、2台のD7-PS1010ドライブで利用できるパフォーマンスの限界に達しているのに対し、D5-P5336は限界に達するまでに4台のドライブを必要とします。D7-PS1010とD5-P5336、いずれの場合でも、ResNet50とCosmoflow AIワークロードにおける1ディスクの読み出しパフォーマンスは、理論上の仕様限界値に近づいています。

図15、図16、表4は、D54U-3UでD7-PS1010とD5-P5336を使用したMLPerf Storageのパフォーマンスの詳細な比較を示し、ResNet-50、Unet3D、CosmoFlowを含む複数のAIモデルを分析しています。その結果は、ワークロードによってディスクパフォーマンスのスケールが異なることを示しており、ワークロード固有のストレージ要件を理解することの重要性を強調しています。

図15では、D7-PS1010が、テストした全ワークロードにおいて高いパフォーマンスを発揮しています。Unet3Dはディスク数の増加により大幅なパフォーマンス向上が見られ、8ディスク構成では23176.57 MiB/sのピークスループットを達成しました（1ディスク構成では11869.57 MiB/s）。ResNet-50も同様の傾向を示し、スループットは（1ディスクでの）15550.54 MiB/sから（2ディスクでの）20069.97 MiB/sへと増加しました。ただし、4ディスクを超えると向上しなくなりました。一方、CosmoFlowではディスク追加によるスループットの向上がほとんど見られず、15838.27 MiB/sのあたりで変動しています。つまり、CosmoFlowのストレージアクセスパターンは追加のNVMeデバイスを十分に活用していないことを示しています。

図15. D54U-3UでD7-PS1010を使用したMLPerf Storage

図16はD5-P5336の結果を示しており、異なる拡張パターンが明らかになっています。Unet-3Dは強力な拡張傾向を維持し、8ディスクで23045.24 MiB/sに達しており、ResNet-50はD7-PS1010と比較してより顕著なメリットが見られ、（1ディスクでの）8402.90 MiB/sから（8ディスクでの）19817.54 MiB/sへと増加しています。CosmoFlowはここでも拡張効果が限定的で、スループットは8ディスクで15657.91 MiB/sがピークでした。このことは、Unet3DやResNet-50などのワークロードでは、P5336はピーク効率に達するためにより多くのディスクを必要とするものの、競争力のあるパフォーマンスになることを示唆しています。

図16. D54U-3UでD5-P5336を使用したMLPerf Storage

表4は、D54U-3UプラットフォームでSolidigm SSD（D7-PS1010、D5-P5336、D3-S4520）を使用し、デバイス数を（1台、2台、4台、8台に）変化させて評価した3つのAIモデル、ResNet50、UNet-3D、CosmoFlowの結果を示しています。この表には、試行錯誤の末に最適化され、ピークパフォーマンスを達成したデータセットサイズ、アクセラレータ使用率（AU）、スループット（MiB/s）、シミュレーション対象のアクセラレータ数を記載しています。

AIモデル	デバイス数	Solidigm D7-PS1010				Solidigm D5-P5336				Solidigm D3-S4520
AIモデル	デバイス数	8	4	2	1	8	4	2	1	8	4	2	1
ResNet50	シミュレートしたH100アクセラレータの数	111	111	111	86	112	112	86	47	28	14	6	2
	データセットサイズ（GiB）	5030	5030	5030	5030	5030	5030	5030	5030	5030	5030	5030	639
	AU_1	90.30	91.87	92.77	92.83	90.93	93.29	90.42	91.58	91.16	91.34	98.78	95.37
	AU_2	90.26	91.72	92.65	92.69	90.07	93.16	90.51	91.70	91.22	91.29	98.79	95.25
	AU_3	90.80	91.76	92.92	92.72	90.89	93.01	90.33	91.45	91.36	91.44	98.75	95.31
	AU_4	90.36	91.17	92.32	92.59	90.88	92.48	90.39	91.70	91.34	91.31	98.79	95.23
	AU_5	90.59	91.71	92.52	92.35	90.50	93.26	90.52	91.47	91.27	91.43	98.80	95.16
	スループット（MiB/s）	19598.80	19855.28	20069.97	15550.54	19817.54	20337.54	15181.02	8402.90	4989.15	2497.28	1157.25	371.96
Unet3D	シミュレートしたH100アクセラレータの数	8	8	7	4	8	8	4	2	1	1	1	1
	データセットサイズ（GiB）	5030	5030	5030	5030	5030	5030	5030	5030	5030	5030	639	639
	AU_1	96.29	95.67	90.98	98.66	97.34	96.55	98.66	98.72	98.80	67.83	29.85	11.58
	AU_2	96.58	95.80	91.87	98.68	97.75	97.40	98.65	98.70	98.77	67.85	30.05	11.59
	AU_3	96.78	94.87	92.06	98.68	97.17	98.26	98.66	98.73	98.79	67.86	30.11	11.60
	AU_4	96.45	94.44	90.95	98.69	96.50	97.82	98.68	98.72	98.80	67.71	30.14	11.58
	AU_5	96.57	95.69	91.01	98.68	96.11	97.78	98.66	98.73	98.79	67.74	30.12	11.59
	スループット（MiB/s）	23176.57	22877.37	19216.97	11869.57	23045.24	23143.96	11864.99	5938.05	2976.95	無効	無効	無効
CosmoFlow	シミュレートしたH100アクセラレータの数	28	28	28	28	28	28	28	14	7	3	2	1
	データセットサイズ（GiB）	5030	5030	5030	5030	5030	5030	5030	5030	5030	5030	5030	639
	AU_1	72.06	72.00	73.18	73.56	72.95	73.48	70.44	76.75	72.64	87.19	72.85	64.07
	AU_2	71.70	71.98	73.26	73.67	72.90	73.86	70.57	76.80	72.85	87.43	72.85	64.74
	AU_3	72.02	71.99	73.28	73.57	72.78	73.61	70.48	76.75	72.96	87.57	72.47	65.04
	AU_4	71.77	72.08	73.27	73.70	72.68	73.97	70.62	76.81	73.16	87.74	72.84	65.05
	AU_5	71.89	72.28	73.38	73.74	72.72	73.57	70.45	76.80	73.24	87.94	72.72	64.81
	スループット（MiB/s）	15461.26	15499.75	15757.37	15838.27	15657.91	15848.42	15165.49	8270.50	3933.09	2023.81	1121.04	無効

表4. 異なるSolidigm NVMeモデルにおけるMLPerf Storageの結果

ResNet50については、すべての構成でAUが90%を超え、その基準を満たしています。スループットは、D7-PS1010（8台）で20,069.97 MiB/s、D5-P5336（8台）で19,817.54 MiB/sとピークに達しています。一方で、D3-S4520は4,989.15 MiB/sに留まっており、高スループットの要求には適さないことがわかりました。UNet-3Dも常にAUが90%を超え、D7-PS1010とD5-P5336が8台でそれぞれ23,176.57 MiB/sと23,045.24 MiB/sという高いスループットを達成しており、デバイス数が少ないと結果が出ないD3-S4520に対するNVMeの優位性を浮き彫りにしています。CosmoFlowはAUの基準を70%に設定しており、この閾値を上回るAU値を維持していますが、そのスループットはワークロード固有の特性を反映して、最小限の拡張性しか示していません（例：8台で、D7-PS1010は15,838.27 MiB/s、D5-P5336は15,657.91 MiB/s）。これは、CosmoFlowのデータアクセスパターンやコンピューティングの要求がストレージの拡張にあまり影響を受けず、コンピューティングやメモリ効率といった他のシステム要素を優先していることを示唆しています。

反復テストを通じて最適化したシミュレーション対象のアクセラレータは、各セットアップにおけるAUとスループットのバランスを考慮した最適な構成を反映しています。Solidigm D7-PS1010は、PCIe Gen5の帯域幅により、一般にD5-P5336よりも少ないデバイス数で優れたパフォーマンスを発揮します。一方、D5-P5336は、同等のパフォーマンスを得るためにより多くの拡張を必要とします。D3-S4520は一貫して低パフォーマンスであり、AIワークロードにおけるNVMeの必要性を裏付けています。これらの結果は、ワークロードに特化したストレージ計画の重要性を浮き彫りにしており、UNet-3Dのような高スループットモデルにはNVMe SSDが不可欠である一方、CosmoFlowの安定性はストレージの拡張への依存度が低いことを示しています。

データは全体として、AIワークロード、特にUnet-3Dのような高スループットを要求するモデルにはNVMe SSDが必要であることを裏付けています。D7-PS1010はより少ないディスク数でピークパフォーマンスに達する一方、D5-P5336は同等のパフォーマンスレベルに到達するために追加の拡張が必要です。D3-S4520はこれらのタスクには不向きであり、AIインフラ計画における慎重なストレージ選択の必要性を強調しています。

AIモデルトレーニングのためのハードウェア構成に関する推奨事項

分析に基づき、AIモデルトレーニングを最適化するための推奨事項を以下に述べます。

ストレージの選択：ディスクの読み出し・書き込み速度に影響を受けやすいワークロードでは、Solidigm D7-PS1010（PCIe Gen5）などの高性能NVMe SSDを選択することが極めて重要です。コスト重視の導入においては、複数のSSDによるストレージ拡張が、パフォーマンスのボトルネック緩和に寄与する可能性があります。
NVIDIA GDSの活用：AIトレーニングワークロードの高速化には、NVIDIA GPUDirect Storage（GDS）の活用が推奨されます。特に、NVMe SSDとGPU間の直接データ転送によりCPUのオーバーヘッドやメモリのボトルネックを低減できる環境において効果的です。
システムアーキテクチャーのバランス：最適なパフォーマンスを実現するには、ストレージ、CPU、GPUの構成をバランスよく調整する必要があります。PCIe帯域幅が高く、効率的なデータフロー機構を備えたシステムは、一般的にAIトレーニングにおいてより良い結果をもたらします。

これらの推奨事項に従うことで、AIモデルのトレーニングはパフォーマンスと効率性について最適化され、コンピューティングの要求を満たすためにハードウェア投資を効果的に活用できるようになります。

まとめ

MLPerf v4.1のベンチマーク結果は、AIワークロード、特にトレーニングシナリオにおいて、高性能ストレージが果たす重要な役割を浮き彫りにしています。Solidigm NVMe SSD、つまり、D7-PS1010（PCIe Gen5）、D5-P5336（PCIe Gen4）、D3-S4520（SATA）の評価では、推論パフォーマンスはストレージ構成の影響をほとんど受けない一方で、AIトレーニングやストレージ集約型のワークロードは高速NVMeソリューションによって大幅な恩恵を受けることが示されました。

推論ワークロードについては、実行前にモデルがメモリにプリロードされるため、ディスク数は測定可能な影響を与えないことが結果から確認されました。したがって、推論の効率性を向上させるには、ストレージソリューションの拡張よりも、GPUのパフォーマンスやメモリ帯域幅の最適化がより重要となります。

一方で、トレーニングワークロード、特にDLRMv2などのストレージ集約型モデルでは、高速NVMe SSDを使用することで明らかなパフォーマンスの向上が見られます。Solidigm D7-PS1010 PCIe Gen5 SSDは一貫して、特にディスクが少ない構成で、D5-P5336 PCIe Gen4 SSDよりもトレーニング時間を抑えられます。しかし、ディスク数が増加するにつれて、パフォーマンスの向上が頭打ちになっていきます。ストレージ拡張のリターンが少なくなる閾値を超えたということです。

MLPerf Storageベンチマークの結果は、AIアプリケーションにおけるNVMe SSDの必要性をさらに強調しています。SATA SSD（Solidigm D3-S4520）のパフォーマンスは、最新のAIワークロードには不十分であり、NVMeストレージが望ましい選択肢となります。D7-PS1010は少ないディスク数でピーク効率を達成する一方、D5-P5336は同等のパフォーマンスレベルを達成するために追加の拡張が必要であり、ワークロードに特化したストレージ計画の重要性を強調しています。

全体として、これらの結果が示すのは、AIインフラの最適化にはバランスの取れたアプローチが必要であるということです。トレーニングワークロードには高性能なNVMe SSDが求められる一方で、推論ワークロードではGPUとメモリの強化がより効果的です。AI導入の拡大を目指す組織は、ワークロード要件に基づいてストレージソリューションを優先的に選択し、効率性と拡張性を最大化するために演算能力、メモリ帯域幅、ストレージパフォーマンスの最適なバランスを確保できるようにするとよいでしょう。

著者紹介

参考資料

[1] J. Devlin、M.-W. Chang、K. Lee、K. Toutanova、“BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,” May 24, 2019, arXiv: arXiv:1810.04805. doi: 10.48550/arXiv.1810.04805.

[2] K. He, X. Zhang, S. Ren, and J. Sun, “Deep Residual Learning for Image Recognition,” Dec. 10, 2015, arXiv: arXiv:1512.03385. doi: 10.48550/arXiv.1512.03385.

[3] T.-Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dollár, “Focal Loss for Dense Object Detection,” Feb. 07, 2018, arXiv: arXiv:1708.02002. doi: 10.48550/arXiv.1708.02002.

[4] Ö. Çiçek, A. Abdulkadir, S. S. Lienkamp, T. Brox, and O. Ronneberger, “3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation,” Jun. 21, 2016, arXiv: arXiv:1606.06650. doi: 10.48550/arXiv.1606.06650.

[5] M. Naumov et al., “Deep Learning Recommendation Model for Personalization and Recommendation Systems,” May 31, 2019, arXiv: arXiv:1906.00091. doi: 10.48550/arXiv.1906.00091.

[6] B. Wang and A. Komatsuzaki, “GPT-J-6B: A 6 billion parameter autoregressive language model.” May 2021. [Online]. Available: https://github.com/kingoflolz/mesh-transformer-jax

[7] H. Touvron et al., “Llama 2: Open Foundation and Fine-Tuned Chat Models,” Jul. 19, 2023, arXiv: arXiv:2307.09288. doi: 10.48550/arXiv.2307.09288.

[8] A. Q. Jiang et al., “Mixtral of Experts,” Jan. 08, 2024, arXiv: arXiv:2401.04088. doi: 10.48550/arXiv.2401.04088.

[9] D. Podell et al., “SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis,” Jul. 04, 2023, arXiv: arXiv:2307.01952. doi: 10.48550/arXiv.2307.01952.

[10] M. Chen, Y. Zhang, X. Kou, Y. Li, and Y. Zhang, “r-GAT: Relational Graph Attention Network for Multi-Relational Graphs,” Sep. 13, 2021, arXiv: arXiv:2109.05922. doi: 10.48550/arXiv.2109.05922.

[11] E. J. Hu et al., “LoRA: Low-Rank Adaptation of Large Language Models,” Oct. 16, 2021, arXiv: arXiv:2106.09685. doi: 10.48550/arXiv.2106.09685.

[12] R. Rombach, A. Blattmann, D. Lorenz, P. Esser, and B. Ommer, “High-Resolution Image Synthesis with Latent Diffusion Models,” Apr. 13, 2022, arXiv: arXiv:2112.10752. doi: 10.48550/arXiv.2112.10752.

[13] W. Liu et al., “SSD: Single Shot MultiBox Detector,” vol. 9905, 2016, pp. 21–37. doi: 10.1007/978-3-319-46448-0_2.

[14] H. Devarajan, H. Zheng, A. Kougkas, X.-H. Sun, and V. Vishwanath, “DLIO: A Data-Centric Benchmark for Scientific Deep Learning Applications,” in 2021 IEEE/ACM 21st International Symposium on Cluster, Cloud and Internet Computing (CCGrid), May 2021, pp. 81–91. doi: 10.1109/CCGrid51090.2021.00018.

[15] J. Zhou et al., “Graph Neural Networks: A Review of Methods and Applications,” Oct. 06, 2021, arXiv: arXiv:1812.08434. doi: 10.48550/arXiv.1812.08434.

免責条項

その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。

Solidigm製品は、予告なく仕様や説明が変更されることがあります。

テストでは、特定のシステムでの個々のテストにおけるコンポーネントのパフォーマンスを文書化しています。

ハードウェア、ソフトウェア、システム構成などの違いにより、実際のパフォーマンスは掲載されたパフォーマンステストや評価とは異なる場合があります。

購入を検討される場合は、ほかの情報も参考にして、パフォーマンスを総合的に評価することをお勧めします。

文書化された結果は暫定的なものであり、情報提供のみを目的としています。これらの数値や記述は最終的なものでも公式なものでもありません。

ドライブはエンジニアリングサンプルとみなされます。本番環境に関するガイダンスについては、ロードマップを参照してください。

すべてのニュース

何をお探しですか？

いらっしゃいませ

私のプロフィール

mySolidigm

設定

サインアウト

Solidigm™ソリッドステートドライブによるAIワークロードの最適化

MLPerf推論、トレーニング、ストレージのパフォーマンスに関する知見

概要

はじめに

ベンチマークの設定と方法

ハードウェアとソフトウェアの構成

MLPerfワークロード

MLPerf Inference v4.1

MLPerf Training v4.1

MLPerf Storage v1.0

結果と分析

MLPerf Inference v4.1ディスク構成のパフォーマンス分析

MLPerf Training v4.1ディスク構成のパフォーマンス分析

MLPerf Storage v1.0ディスク構成のパフォーマンス分析

AIモデルトレーニングのためのハードウェア構成に関する推奨事項

まとめ

著者紹介

参考資料

免責条項

関連記事

メモリ使用量を 57% 削減して、クエリ速度を 50% 向上？――そんなうまい話、信じられますか？

エッジ・ストレージについて知っておくべきこと

AIトレーニングのパフォーマンスソリューション概要

AIワークロードのためのSolidigm™ S3 Fuseの調査と概念実証設計

AlluxioとSolidigmがAIワークロード向けの高度なキャッシングソリューションを共同開発