AIには限界があります。AI コンピュートへの需要は尽きることがなく、そのため、電力グリッドが限界まで迫ってています。5年前、スリーマイル島の原子力発電所で最後の原子炉が廃止されたとき、その稼働が再開され、1箇所のデータセンターに電力を供給することなど、誰も予想できませんでした。しかし、これは最近、Microsoft の電力購入契約で実際に起こったことなのです。AIの電力需要という極度の難題に直面している企業は、同社だけではありません。
現在のデータセンター設計者は、新しいAIアプリケーションを導入するのであれば、1ワットの電力でも、1平方フィートのスペースでも貴重であることを理解しています。過去のハードウェアで AI を運用することは不可能です。ストレージも例外ではありません。エネルギー効率とスペース効率に優れたソリッドステートドライブ(SSD)を選択すれば、AI モデルのトレーニングや推論に必要となる電力とスペースを確保できます。
データセンターの電力効率に関する議論を始めるには、過去10年間で計算能力とデータ量が劇的に増加した事実をまず認識する必要があります。2014年当時、平均的なプロセッサーの冷却に必要な電力は100Wでした。2024年になると、その平均値は5倍以上に増加しています1。現在の NVIDIA H100 SXM GPU の冷却には700Wが必要です2。
平均的なラック電力も、同じように増加しています。2014年の時点でラック電力は平均で約4~5kW でしたが、2024年には10~14kW に増加しています3。GPUベースの計算ラックでは、さらに多くが必要です。最近行われたOCPサミット会議では、Microsoft と Google が両社とも、数百kWから1MWまでスケーリング可能なラックを運用中であると発言しています。
電力さえ確保できれば、当社は間違いなく、現在よりも大規模なクラスターを構築するでしょう。
マーク・ザッカーバーグ、Meta4
さらに、生成 AI などの AI アプリケーションは、モデル改良のためにますます大量のデータを消費するようになっており、データ量の急増を招いています。例えばCommon Crawlには、毎月30億~50億の新規ページが追加されています5。また、2年ごとにサイズが2倍以上に増加しているAIモデルデータセットの事例も確認されています6。
GPUインフラに十分な電力と冷却を供給する課題が今日の注目を集めています。しかし、電力に限りがある環境では、1ワットの差が持つ意味は大きくなります。計算処理だけでなく、ストレージもデータセンターにおけるエネルギー消費において大きな比重を占めています。
例えば、Meta が公開したデータによると、AI レコメンデーションエンジンクラスタの電力消費量のうち35%は従来型ハードディスクドライブ(HDD)ストレージによるものです7。Microsoftのデータによれば、Azure ソリューションの運用排出量全体のうち33%はストレージによるものですが、これは電力消費に相関性があります8。電力に制約のある環境では、ストレージに1ワットを消費すれば、演算処理に使える1ワットを失うことになります。
大容量 SSD を採用したデータストレージは、従来のストレージと比べて少ないデバイス台数で多くのデータを保存可能です。端的に言うと、すべての条件が同じであれば、ドライブが少ないほど、消費電力も、サーバー台数も、スペースも節約することができ、結果として全体的な冷却要件が抑えられます。業界で最も大容量のデータセンターSSDであるSolidigm D5-P5336(最大容量61.44TB)は、現在の最大容量 HDD より小さい電力消費量で大容量データセットの保存が可能です9。
AIラック(4台のDHXサーバー)単位の使用データ量は、テキストベースの AI アプリケーションの場合は0.5~2.0PBの範囲で変動し、ビジョンベースの AI アプリケーションの場合は約16PBであることが判明しています。さらに、AIラックあたり最大32PBを打ち出しているベンダーも複数あります。以下の表では、節電効果を正確に示すため、計算ラック1架につき16PBのデータを使用することにしています。ただし、SSDによる節電効果は、必要なデータ量に応じてほぼ線形に推移する点にご注意ください。
比較のため、16PBのデータをTLC SSDキャッシュ/HDDバックエンドストレージ、またはすべてSolidigm QLC SSDで構成したソリューションでホスティングしています。
計算ラックごとに16PBのデータストレージ |
||
ストレージ構成 | TLCキャッシュ HDDバックエンドを使用 |
すべてSolidigm QLC SSD |
---|---|---|
データの局所性 | 分割
|
QLC NANDに全データ
|
ストレージラック用スペース | 約3ラック(78U)、以下を含む キャッシュ:18U(各7.68TBのTLC SSDを209個)を12台のSSD/1Uサーバーに搭載 大容量ストレージ:60U(各24TBのHDDを1,800個、3方向ミラーリングを想定)、90ドライブ/3UのJBoD |
0.5ラック(21U)、以下を含む 大容量ストレージ:21U(各61.44TBの521個のSSD、2方向ミラーリングを想定)、12個SSD/1Uサーバー1台と32ドライブ対応1U JBoF 2台の組み合わせ、またはラックスペース3Uあたり76個のSSD
|
ストレージ電力 | 18.9kW、以下を含む キャッシュ:1.3kW、以下の209個のTLC SSDを想定
大容量ストレージ:17.6kW、以下の1,800個のHDDを想定
|
3.7kW 大容量ストレージ:以下の521台のQLC SSDを想定
|
サポート電源&ラックスペース | 10.5kW(3U-PSU + 3U-ネットワークで各3.5kW)、1ラックあたり6Uの場合、ラックスペースは18U | 3.5kW(3U-PSU + 3U-ネットワークユニット)および6Uのラックスペース |
総電力&総ラックスペース | 29.4kW、3ラックで96U | 7.2kW、1ラックあたり27U |
すべてSolidigm D5-P5336 QLC SSDのアレイを導入した場合、データセンターで最大22.2kWの節電効果があり、16PBのAIデータ用のスペースが1.6ラック以上節約されます。実際の結果は環境によって異なりますが、一般的には、従来のストレージからQLC SSDに移行することで、AI計算用のラック1架あたり、このような電力およびスペースの節約が可能です。
NVIDIA DGX H100サーバーが10.2kWの電力を消費することを考えると、22.2kWの節電は、それほど大きな数字には思えないかもしれません。ただ、これはデータセンターで AI アプリケーション用にこのサーバーを2台多く導入できることを意味します。AI用に必要な計算ラックごとのデータ量が増えれば、電力節約効果はさらに大きくなります。
ここで、考慮すべきコストの違いについて言及しておきましょう。HDDの購入コストは従来、$/TBベースでSSDよりも低コストでした。そのため、すべてQLC SSDで構成したストレージの調達費用は、HDDより高いと考えられます。
ただし、電力に制約のある改良プロジェクトや、使用できる電力が限られている新規のデータセンター展開プロジェクトでは、ワット数を節約できるかどうかは、新たに運用開始するAIアプリケーションの成否を分ける要因となる可能性があります。
電力効率とスペース効率に関しては、最新のエンタープライズ向けSolidigm QLC SSDは、今日のデータセンターを変革しつつあります。エネルギー効率とスペース効率に優れたSSDストレージを選ぶことで、AIインフラへの投資をより有効に利用できます。
Dave Sierra は、Solidigm の製品マーケティングアナリストとして、今日のデータセンターが直面するインフラの効率化という課題の解決に取り組んでいます。
Ace Stryker は、Solidigm の市場開発ディレクターとして、AIワークロードおよびソリューションに関する専門知識を活かし、同社のデータセンターストレージソリューションポートフォリオの新たな応用先を開拓しています。
1. 平均的なラック電力と電力区分
2. 出典:https://resources.nvidia.com/en-us-tensor-core/nvidia-tensor-core-gpu-datasheet
3. 出典:https://www.idc.com/getdoc.jsp?containerId=US50554523
5. 出典:https://commoncrawl.org/
6. 出典:https://epochai.org/trends#data
7. 出典:https://engineering.fb.com/2022/09/19/ml-applications/data-ingestion-machine-learning-training-meta/
8. ストレージ排出量に関する研究の呼びかけ、カーネギーメロン大学およびMicrosoft Azure、https://hotcarbon.org/assets/2024/pdf/hotcarbon24-final126.pdf
9. https://www.solidigm.com/products/data-center/d5/p5336.html