Solidigm の QLC SSD で電力効率に優れた AI データセンターを構築する

Signal65 Lab Insight

100 MW data center comparing Solidigm QLC SSDs vs TLC SSDs vs hybrid data storage.
100 MW data center comparing Solidigm QLC SSDs vs TLC SSDs vs hybrid data storage.

概要

AI はイノベーションをもたらす大きな可能性を秘めていることから、企業の最優先課題となっています。ただ、AI データセンターを構築するうえで、大きな課題があります。AI は大量の計算と、膨大な量のデータ処理を両方行うため、大規模なインフラ、そして大量の電力を必要とします。新たな AI データセンターを支えるために必要となる膨大な電力が大きな課題となり、コストが増加し、持続可能性の懸念が高まり、単一のデータセンターにデプロイできるインフラ全体の規模が制限されます。

AI に伴うエネルギー関連の懸念から、GPU を幅広い範囲で使用することに注目が集まる傾向がありますが、大規模な AI トレーニング用のデータセットと、モデルのチェックポイントに必要なデータストレージも、データセンターの電力効率にさらなる大きな影響を及ぼしています。本調査では、AI データセンターにおけるネットワークアタッチドデータストレージの役割にフォーカスし、さまざまなストレージメディアが電力効率にどのような影響を与える可能性があるかについて評価します。

本調査は、新しい100メガワットの AI データセンターをモデルとし、さまざまなストレージデバイスが全体的な電力効率に与える影響を評価することを目的としています。具体的には、QLC SSD、TLC SSD、およびハイブリッド HDD ベースのデプロイメントの影響について評価します。

本調査の主な数値結果:

  • QLC SSD は、TLC SSD と比較して電力効率が 19.5% 高い
  • QLC SSD は、TLC SSD と HDD のハイブリッドと比較して電力効率が 79.5% 高い
  • QLC SSD は、同じデータセンター内で、AI インフラの総数を増やすことができる:TLC SSD より 1.6%、HDD より 26.3% 追加が可能

AI、エネルギー、ストレージ

AI 分野の最近の進化は、テクノロジーへの新たな関心を呼び起こしています。AI アプリケーションは、実質的にすべての業界で最優先課題となっており、大きなイノベーションの原動力となる可能性を秘めています。

イノベーションの大きな可能性を秘めている一方、こうした新たな AI アプリケーションの開発とデプロイには課題が立ちはだかっています。AI のデプロイは、膨大なリソースを消費し、大量のコンピュートリソースと大規模なデータ容量を必要とします。計算時、最新の AI モデルは大量の GPU を消費してトレーニングのプロセスを並列化および効率化します。データストレージ要件を考える場合、主に2つの課題があります。まず、AI モデルは、高レベルの精度を達成するために膨大な量のトレーニングデータを必要とします。また、トレーニングプロセス全体を通して、モデルの状態を保持するために、常に一貫したモデルのチェックポイントを保存する必要があります。そのため、AI データセンターのストレージ容量の要件がきわめて高くなります。 

AI データセンターを構築する際には、コンピュートとストレージ両方の要件が高くなるため、もう1つ大きな課題が生じます。それが電力です。AI インフラに求められる大規模な電力需要は、企業が AI データセンターを構築するうえで、大きな懸念材料となっています。AI データセンターのエネルギー消費は、大幅なコストの増加につながり、持続可能性の目標を妨げ、AI インフラのデプロイを制限する要因となる可能性があります。大規模なハイパースケーラーなどでは、電力要件がきわめて高くなっていることから、AI データセンターの電力を賄うために、小規模な原子炉への投資を始めているケースもあります。専用の原子炉を購入することは、ほとんどのデータセンターの場合選択肢にならないかもしれませんが、AI 関連の電力が課題となっていることに変わりはありません。AI データセンターを構築する企業は、AI の電力要件、そして効率的なデータセンターを構築するためにどのような選択肢があるかを把握しておかなければなりません。

データセンター内の電力は、大きく分けて、次のカテゴリーになります:コンピュート、ネットワーキング、ストレージ、そして非 IT インフラ関連の電力(主に冷却)です。AI の電力要件に関わる懸念材料として、GPU を大規模に使用することによるコンピュートの問題が焦点になっていることがほとんどです。GPU は確かに大量のエネルギーを消費しますが、GPU の役割は、AI のトレーニングにおいて欠かすことができません。AI モデルのトレーニングは、大量の計算、そして多大な時間を必要とするプロセスです。計算リソースを減らした場合、実用的なスケジュールで達成することは難しくなるでしょう。AI データセンター内では、ネットワークが最大の電力を消費しているわけではありません。また、コンピュートとストレージの規模に直接関連しているため、ネットワークに大幅な変更を加え、電力効率を高めることもできません。非 IT インフラに関連する電力を考えた場合、冷却が重要な領域となりますが、これは、液冷方式を採用して変更を加え、電力効率を大きく高められる可能性があります。液冷の課題は、まったく新しいインフラが必要になることで、このため、コストが大きく跳ね上がる場合があります。この結果、データストレージこそが、電力効率を最適化するカギとなりますが、これはきわめて簡単に、実現できる可能性があります。

AI データセンターにおけるエネルギー消費の大半は、GPU のコンピュートによるものですが、データストレージも大きな部分を占めています。トレーニングを高速化するには、通常最も強力な GPU が必要となりますが、企業がストレージデバイスを検討する際にはさまざまな選択肢があります。ストレージデバイスは徐々に進化を遂げてきました。主に HDD をベースとしたアプローチから、高密度化が進むソリッドステートテクノロジーへと進化しています。HDD ベースのアプローチは通常、SSD キャッシュ層を用いてディスク回転の低パフォーマンスを補うことができるため、大容量ストレージの安価なオプションとして選ばれています。一方、最新のオールフラッシュのアプローチでは通常、トリプルレベルセル(TLC)またはクアッドレベルセル(QLC)デバイスのいずれかを使用しますが、TLC と QLC には、それぞれ独自の強みと弱みがあります。TLC デバイスは一般的に、QLC と比べて密度が低い一方で、高いパフォーマンスを実現します。QLC デバイスは、TLC デバイスと比べると、書込みパフォーマンスではわずかに及ばないものの、同程度の読取パフォーマンスで超高密度のストレージを提供します。

QLC の台頭により、ストレージデバイスを選択する際の典型的な動きに変化が起こっています。HDD は、コスト効率の高い大容量ストレージとして選ばれており、TLC SSD は、パフォーマンス需要の高いワークロード用の確かな選択肢となっています。高密度の QLC ドライブは、安価な HDD のアドバンテージには脅威となりますが、フラッシュパフォーマンスも実現し、多くの典型的な HDD ベースの環境に代わる魅力的な選択肢となりつつあります。エネルギーに関連する懸念が生じたことで、QLC はますます、HDD に代わるものとして位置づけられるようになっています。SSD は一般的に、HDD よりエネルギー効率が高いと考えられているためです。QLC は、オールフラッシュ環境におけるTLC デバイスの優位性をも脅かしています。特にパフォーマンスが大きな強みとなる、リードヘビーなワークロードで顕著になっています。

AI 用のデータストレージを検討する際に、パフォーマンス、容量、エネルギー効率のバランスがとれたデバイスが必要になります。AI モデルのトレーニングでは通常、ペタバイトスケールの容量が必要です。データの量が多いほど、精度の高いモデルを構築できるためです。また、大規模なモデルでは、一貫性のあるチェックポイントを維持し、モデルの状態を保持する必要があります。容量だけでは十分ではありません。ストレージは、データを効率的に GPU サーバーに読み出すため、厳しいパフォーマンス需要を満たす必要もあります。このほか、ストレージを最適化して電力効率を高めるための要件が増えると、タスクはさらに複雑になります。AI 用のストレージ要件を検討する際に、QLC の高密度、フラッシュのパフォーマンス、エネルギー効率がバランス良くそろっていれば、QLC は AI データセンターにおいて魅力的な選択肢となります。

本調査について

AI への関心の高まりと、AI インフラの消費電力に関して増大する懸念に対応するため、本調査では、AI データセンターの電力効率へのストレージデバイスの影響について評価しました。そのため、Signal65 と Solidigm が協働し、100メガワットの AI データセンターの現実的な実装をモデル化して、さまざまなストレージデバイスが全体的な電力効率に与える影響を測定しました。ストレージデバイスを変数に選択したのは、ストレージデバイスが IT の意思決定者による電力効率最適化において実用的な選択肢となるためです。モデル化は、異なる3つのストレージシステム構成について実施されました。ハイブリッド HDD ベースのソリューション、オール TLC SSD ソリューション、オール QLC SSD ソリューションです。評価用に選定されたデバイスは、Solidigm の大容量 QLC SSD、競合他社の TLC SSD、および Solidigm の TLC SSD のキャッシュ層と組み合わせた競合他社の HDD です。

システム構成の詳細

ストレージデバイスの影響を分かりやすくするため、その他の変数はすべて、それぞれの環境で一定にしました。各ストレージ構成は、以下のパラメーターに基づいてモデル化されました。

  • AI インフラはすべて、100 MW の AI データセンター内に置かれています。
  • コンピュートは NVIDIA DGX H100 クラスタで提供され、ラックあたりサーバー4台となっています。
  • AI のトレーニングデータはネットワークアタッチドストレージに保存されています。ストレージは、オールフラッシュまたは HDD ベースの構成をサポートするソフトウェア定義ストレージソリューションをモデルとしています。特定のメディアで推奨される構成に基づいて、2重または3重の冗長化アーキテクチャーを選択しました。1
  • ストレージソフトウェアは、ストレージデバイスに応じて、JBOD または JBOF が接続されたコモディティサーバーにデプロイしました。
  • 各ストレージ構成は、さまざまなデバイスを追加する際に、事前に決定された容量ポイントを満たすために必要となるストレージ管理サーバーと、JBOF または JBOD の組み合わせの総数に基づいてモデル化されました。ハイブリッド HDD 環境での総容量 10% は、TLC SSD のキャッシュ層用に確保され、残りの 90% は、JBOD の HDD としてデプロイしました。SSD 環境では、ペアリングの最大容量と総必要容量の比率にあわせて、必要なデバイスの総数がストレージ管理サーバーと JBOF との間で分けられました。

QLC SSD 環境

  • Solidigm の D5-P5336 122.88 TB 大容量 QLC SSD を全ストレージに使用
  • ソフトウェア定義ストレージを、最大12台のドライブをサポートするコモディディサーバーにデプロイ
  • 最大32台のドライブを有する JBOF
  • 2重の冗長化アーキテクチャー

TLC SSD 環境

  • 61.44 TB TLC SSD を全ストレージに使用
  • ソフトウェア定義ストレージを、最大12台のドライブをサポートするコモディディサーバーにデプロイ
  • 32台のドライブを有する JBOF
  • 2重の冗長化アーキテクチャー

ハイブリッド HDD 環境

  • 24 TB HDD と、キャッシュ層として使用される7.68 TB TLC SSD の組み合わせ
  • 最大12台の SSD を有するストレージ管理サーバー
  • 最大32台の HDD をサポートする JBOD
  • 総容量の 10% を SSD のキャッシュ層に保存
  • 3重の冗長化アーキテクチャー

調査方法と主な前提条件

3つのストレージ環境を現実に即した公正な手段で評価するために、モデル化プロセス全体で主な前提条件を策定および維持する必要があります。この前提条件は、モデルの枠組みとなるとともに、外部の調査と業界の知見をベースとしました。ただし、前提条件は実際のデプロイすべてについて適用されるわけではなく、結果は異なる場合があることに注意が必要です。モデル化のプロセスで使用される主な前提条件は以下の通りです。

ワークロードの前提条件とデバイスの電力算出

この評価では、AI モデルのトレーニングに焦点を当てました。AI モデルのトレーニングは通常、推論より多くのリソースを消費するプロセスであるためです。AI トレーニングのワークロードを正確に示すために、ワークロードの構成は読取 90%、書込み 10% に分割されると仮定しました。常にトレーニングデータを GPU サーバーに読み出す必要があるため、読取割合が高くなっています。一方、書込みワークロード 10% は、モデルのチェックポイントの要件に対応するものです。 

評価対象となる全ストレージデバイスの消費電力の指標は、ベンダーの仕様からそのまま採用されました。特定のワークロードで読取と書込みの消費電力をバランスよくするため、加重平均を算出しました。競合他社の TLC SSD と HDD については、ベンダーが読取と書込みの消費電力を区別した指標を提供していないため、単一のアクティブ時の電力指標が用いられました。以下は、各デバイスで使用された消費電力の値です。

アクティブタイムとアイドルタイムのバランスをさらに検討するため、各ドライブのパフォーマンスと密度に基づいて、デューティサイクル計算が用いられました。HDD がアイドル状態からアクティブに移行する際に要する時間、および、ワークロードのスループット要件が高いことを考慮して、HDD と、HDD に搭載された SSD のキャッシュ層は、すべての時間がアクティブになっていると仮定されました。競合製品の QLC および TLC ドライブのデューティサイクルは、各ドライブのパフォーマンスと容量の指標を用いて、HDD と同じ出力を達成するために必要な時間の相対割合を算出することにより導き出しました。電力指標の算出と同様に、リードヘビーな AI ワークロードとの一貫性を維持するため、パフォーマンスは、各ドライブの読取および書込みスループットの値の加重平均として算出しました。

各ドライブの種類に関連する総電力要件は、算出されたデューティサイクルを用いて、ドライブのアクティブおよびアイドル時の消費電力の加重平均を取って算出しました。既定の実効容量をサポートするために、この値に、ストレージサーバーおよび JBOF または JBOD の両方で必要なデバイスの総数を乗じました。さらに、各ストレージ管理サーバーは、560 W を消費すると仮定されました。ソフトウェア定義ストレージを稼働させるために必要なコンピュートパワーに起因する消費量です。

電力に関するその他の検討事項

  • 各 NVIDIA DGX H100 サーバーの電力要件は、NVIDIA DGX H100 のドキュメントに記載されている通り、10,200 W と仮定しました。また、各サーバーで、NVIDIA DGX H100 SuperPOD の構成で使用されるリソースなど、さらなるネットワーキングおよびファブリック管理リソースが必要になると仮定し、追加分の電力は912 W としました。各 NVIDIA DGX H100 サーバーでは、計11,112 W、サーバー4台を収納した各ラックでは44,448 W が必要になると仮定しました。
  • ストレージインフラの各ラックで、消費電力が1,500 W の400 GbE スイッチが必要になると仮定しました。この前提条件は、主要なスイッチメーカーの仕様に基づいています。
  • Titanium 規格の PSU が、全ストレージラックで使用され、96% の電力効率を実現すると仮定しました。残り4% のロスは、ソリューションの消費電力に追加されました。
  • データセンター内の非 IT インフラの消費電力の影響を考慮して、電力使用効率(PUE)は1.3としました。各環境で利用される非 IT インフラの電力量は、モデルに含まれる全 IT 機器の総消費電力を考慮して、PUE 1.3 を維持するために必要な電力量として算出されました。

容量の前提条件

AI データセンターを正確にモデル化する際の主な課題は、必要なストレージ容量を判断することです。AI は大量のデータを必要とするものとして広く認識されていますが、AI アプリケーションごとに、ストレージ要件は大きく異なっています。本調査において、必要な容量は、結果として得られる重要な電力指標に直接影響を及ぼします。そのため、単一の容量ポイントに基づいて、モデル全体を構築すれば、誤った結果を招く恐れがあります。

さまざまな AI 環境に広く適用可能なモデルを構築するために、異なる3つの容量ポイントを選択しました。考えられるさまざまなユースケースを代表するような内容となっています。これらの容量ポイントは、既存の AI データセンターに関する広範な調査に基づいて決定し、また、NVIDIA DGX H100 にデプロイするための、複数のリファレンスアーキテクチャーの評価に基づいています。以下では、選択された3つの容量ポイントについて詳しく説明し、どの環境に適用可能かについて概説しています。

小容量 - GPU サーバーのラックあたりストレージ 1 PB

一般的に、AI はペタバイトスケールのデータストレージを必要とし、ラックあたり約 1 PB という数値は、さらなるスケールアップが可能なスターティングポイントとして、さまざまなリファレンスで頻繁に言及されています。さまざまな理由で、この小容量レンジに適した環境があると考えられます。例えば、自然言語モデルで必要になるのは通常、主にテキストベースであるため、比較的小容量のトレーニングデータです。ただ、モデルのチェックポイントには、大規模なストレージが必要ですが、これは、モデルの規模と必要なトレーニングの総量に応じて変化します。パラメーターが少ない小規模なモデルのトレーニングでは、転移学習やファインチューニングなどのプロセスで、事前にトレーニング済みの基盤モデルを活用し、全体的なトレーニングの要件を減らすことができるため容量の要件を抑えられる場合があります。

中容量 – GPU サーバーのラックあたりストレージ 5 PB

この容量ポイントは、「小容量」と定義されている容量ポイントと比べて、大きいストレージ容量に対応しますが、大規模な AI デプロイには容量が十分ではありません。トレーニングデータセットの規模とチェックポイントの要件がいずれも大きくなっているため、AI の容量の要件は拡大しています。トレーニングデータセットの大規模化は、より精度の高いモデルを実現するためのデータコレクションの大型化、または、マルチモーダルモデル用など、より大規模なデータタイプの利用に起因している場合があります。チェックポイントの要件は、モデルの大規模化により、各チェックポイントの規模が増していること、トレーニング期間が長期化し、生成されるチェックポイントの総数が増加していることに起因して、拡大しています。

大容量 - GPU サーバーのラックあたりストレージ 10 PB

この容量は、ストレージ要件がきわめて高いと考えられている AI のデプロイを想定しています。ただ、ラックあたり 10 PB のストレージは上限ではなく、さらに大容量の AI 環境は数多く存在することに注意が必要です。自動運転車や医療用画像のユースケースなどでは、大量の画像や動画のデータでモデルをトレーニングするため、大きな容量が必要になる場合があります。また、基盤モデルといった非常に大規模なモデルは、パラメーター数が多く、トレーニングが長時間に及ぶため、容量の要件が拡大する可能性があります。 

選択された容量ポイントは、複数のリファレンスに基づいており、妥当なストレージデプロイの形を示すものとなっています。これにより、AI の消費電力にデータストレージが及ぼす影響の微妙な差異を理解することができます。ただし、AI デプロイメントの多くで、これらの特定の容量ポイントの範囲から外れる場合もあれば、その範囲内となる場合もあることに注意が必要です。ただ、一般的に、モデルは大型化し、トレーニングデータの蓄積量がますます増えているため、将来的に AI に必要な容量は増加する可能性が高いと言えます。

結果

ストレージデバイスの電力効率を評価する際に、さまざまなデバイス間の電力効率の比較だけでなく、データセンター全体への影響も分析することが大切です。モデル化されるストレージデバイスそれぞれの影響を総合的に理解するため、電力効率の数値は複数の計算を行って評価しています。 

まず、ストレージのみの消費電力を評価しました。選択された容量ポイントで、単一ラックの GPU サーバーのサポートに要するネットワークアタッチドストレージのみに必要となる消費電力を分けて評価しました。ストレージの電力効率とともにコンピュートパワーの重要性を理解するために、コンピュートとストレージの総消費電力も算出しました。これは、単一ラックの GPU サーバー、および容量の要件に対応するために一緒に使用される全ストレージの総消費電力として測定しました。最後に、AI データセンター全体におけるストレージの広範な影響を理解するために、100 MW のデータセンター内でサポートされるインフラ総数、およびデータストレージに起因する電力の合計パーセンテージの内訳を測定しました。

総消費電力 - ストレージのみ

データセンター内のさまざまなストレージデバイスの電力効率の影響を評価するにあたっての最初のステップは、それぞれの構成のストレージで直接消費される総電力を把握することです。これは、それぞれ「大」「中」「小」の容量ポイントを設定した GPU サーバーの単一フル実装ラックをサポートするのに必要なネットワークアタッチドストレージに起因する電力を分けることで実現しました。図1の通り、電力の計算結果は、評価対象となる3つのデバイスそれぞれを使用したストレージ構成でモデル化しています。

AI データセンターにおけるストレージの総消費電力。QLC、TLC、ハイブリッドストレージの比較。 図1. 総消費電力 - ストレージのみ

3つのストレージ構成の消費電力を比較すると、各容量ポイントで、QLC SSD は、TLC SSD と HDD の構成より効率的であることが、このモデルで明らかになっています。さらに、容量が大きくなるほど、QLC の電力効率のアドバンテージは高くなっています。TLC との比較では、容量が 1 PB から 10 PB に増えると、QLC の電力効率のアドバンテージが 3.3% から 19.5% になることが分かりました。ハイブリッド HDD 環境と比較すると、アドバンテージはさらに大きくなります。小容量で 32.9%、大容量で 79.5% のアドバンテージがあります。

ストレージを直接評価すると、QLC デバイスは、TLC SSD または HDD のどちらと比べても、著しく優れた電力効率を実現していることが明らかになりました。モデル化された3つのデバイスのアクティブ時の消費電力の値は変化し、HDD は個々のドライブの最低値を測定していますが、高密度の QLC デバイスは、はるかに少ないドライブ数で同じ総容量を達成し、全体的な消費電力を抑えています。デバイス密度の影響は特に、どちらの SSD タイプよりも低密度な HDD と比較すると明らかです。

QLC SSD と TLC SSD のデバイス密度の違いと、その消費電力への影響は、環境に対する容量の要件が高くなるにしたがって顕著になっています。小容量ポイントでは、TLC に対する QLC の電力効率のアドバンテージは 3.3% という緩やかな数値になっていますが、このアドバンテージは、中容量、大容量では、12.7%、19.5% となっています。これは、QLC の電力効率のアドバンテージを証明しているだけではありません。高密度のドライブが、ビッグデータの課題に対して、これほど大きなインパクトをもたらす理由を示していると言えます。

総消費電力 – コンピュートとストレージ

データセンター内のストレージの消費電力を分けることは、異なるデバイスタイプのさまざまな電力効率を理解するうえで有益ですが、データセンターのさまざまな状況と合わせて考えなければなりません。AI データセンターでは、GPU サーバーが使用されるため、通常はコンピュートの消費電力の比重が高くなります。AI インフラの全体的な電力効率に対するストレージデバイスの影響を理解するために、GPU サーバーと、一緒に使用するストレージの消費電力を算出しました。デバイスタイプおよび必要な総容量はそれぞれ異なりますが、図2の通り、GPU サーバーの単一ラックの数値を算出しています。

AI データセンターにおけるコンピュートとストレージの総消費電力。QLC、TLC、ハイブリッドストレージの比較。 図2. 総消費電力 – コンピュートとストレージ

ストレージのみの比較と同じように、この計算結果から、QLC SSD の電力効率のアドバンテージが明らかになっています。GPU サーバーの消費電力は、3つの環境すべてにおいて一定であり、QLC は電力効率の高いストレージを提供することが分かっているため、これは予想通りです。この評価が示しているのは、電力の大半がコンピュートリソースによって消費されているとしても、電力効率の高いストレージを使用すれば、AI インフラ全体の電力効率に影響を与えられるということです。

小容量の場合、QLC 環境の電力効率のアドバンテージは大きくありません。TLC 環境に対して 0.16%、HDD 環境に対して 2.32% のアドバンテージとなっています。容量が大きくなると、ストレージが電力効率全体に与える影響は大きくなります。中容量ポイントでは、QLC 環境の電力効率は TLC 環境より 1%、HDD 環境より 10% 高くなっています。高容量ポイントでは、QLC の電力効率のアドバンテージは大きくなり、TLC と比較して 1.6% 、HDDと比較して 20.8% 高くなっています。

この傾向から、AI ストレージの要件が拡大し続けるなかで、大容量の QLC ストレージデバイスが実現する電力効率のインパクトはますます大きくなると考えられます。このように電力の削減が可能になる場合の影響を把握するには、AI インフラを追加し、デプロイするために、いかにこの電力のアドバンテージを生かせるかを評価すればいいでしょう。

100 MW のデータセンターあたりの AI インフラ総数

本調査の主な目的は、一定の電力量のデータセンターにおいてサポート可能な AI インフラ全体に対する影響を理解することでした。具体的には、本調査においては、100 MW のデータセンター内でサポート可能な GPU サーバーラックの数の評価を行いました。モデルに追加される各ラックに、必要なストレージインフラを用意しました。また、非 IT インフラの電力使用量は PUE 値を1.3に固定する想定で算出されました。各容量とドライブの組み合わせでサポート可能な GPU ラックの数を図3に示します。

100 MW のデータセンターの AI インフラを QLC、TLC、ハイブリッドストレージについて容量ごとに比較。 図3. 100 MW のデータセンターの AI インフラ

この計算結果からも、同じような傾向が読み取れます。容量が大きいほど、QLC のアドバンテージが顕著になります。このケースでは、高密度の QLC SSD を使用して得られる電力効率のアドバンテージを、データセンター内にデプロイ可能なインフラの総数で数値化しています。大容量の場合、QLC SSD の電力効率が向上すると、TLC SSD と比較して、26ラック分の GPU サーバーの追加が可能になります。また、HDD ベースの構成と比較すると、335ラック分の GPU サーバーの追加が可能となります。

AI データセンターでは、このように追加 GPU コンピュートへのサポートに対するインパクトは非常に大きくなる可能性があります。GPU は、AI のイノベーションを実現するカギとなりますが、AI のワークロードが大量のエネルギーを消費し、デプロイ可能なインフラの総数が制限される可能性があります。この結果から、ストレージメディアに何を選ぶかで、サポート可能な AI インフラの総数を増減できる可能性があることが分かります。 

電力の合計パーセンテージ

また、データストレージが消費するデータセンターの電力の合計パーセンテージを評価することで、データセンターにおけるデータストレージの電力の重要性を理解することができます。

100 MW のデータセンターで、QLC と TLC およびハイブリッドストレージを使用した場合の電力の合計パーセンテージ。 図4. データセンターにおける電力の合計パーセンテージ

QLC SSD を利用する場合、データストレージの電力は、データセンターの全電力の 3.72%~5.21% を占めていることが分かりました。TLC SSD で構成したストレージは、データセンターの電力の 3.84%~6.37% を消費し、HDD の構成では、データセンターの電力の 5%~20.1% を占めることが分かりました。この数字から、消費電力が最も多いのはデータストレージではないことが分かりますが、データストレージによる総消費量が無視できない規模であることも分かります。総供給電力が大規模な AI データセンター(100 MW など)について見た場合、総電力に占める割合がわずかであっても、メガワット単位では膨大な量となります。消費電力を大幅に削減するためにデータセンター内の要素の多くを変更することはできませんが、本調査によって、ストレージデバイスの選択次第で、データストレージの総消費電力に目に見える影響を与えられる可能性があることが証明されています。 

QLC SSD:AI データセンターを最適化するためのカギ

本調査の結果では、AI データセンターにおけるデータストレージの重要性が特に注目されます。データストレージの電力は、AI データセンターの消費電力の相当量を占めていますが、ストレージ容量が増加すれば、その影響はいっそう大きくなります。コンピュートリソースや冷却の要件など、データセンターの消費電力に大きく影響する要素はほかにもいくつかありますが、データストレージは、まさに電力効率を最適化する現実的な手段となっています。QLC テクノロジーはストレージデバイスのランドスケープに大きな変化をもたらし、AI データストレージの理想的な基盤として台頭しています。

QLC SSD は TLC SSD より高密度で、HDD よりパフォーマンスと密度が高くなっており、また、本調査で明らかになった通り、どちらの競合テクノロジーよりも電力効率に優れています。このような特徴は、高いパフォーマンスと容量の両方が必要になるほか、全体的な電力消費による制約が増える AI データセンターに非常に適していると言えます。 

本調査は、AI など、容量の需要が高い環境における、高密度 QLC ドライブの価値を証明しています。そのような容量レベルを HDD または TLC SSD のいずれかで実現するには、はるかに多くのデバイスが必要になるため、データセンターでコンピュートに使用できるスペースが減り、ストレージ関連の消費電力が増加することになります。逆に、これら2つを活用することで、さらに多くの AI コンピュートリソースのデプロイが可能になります。本調査で使用されたさまざまな容量ポイントが示す通り、容量の要件が拡大すれば、それに波及される影響はますます大きくなります。 

AI テクノロジーは新たに注目を集めており、全体的なデータの要件が拡大する可能性が高まっています。大容量ポイントで電力効率の高いストレージを採用するニーズはいっそう明確になっています。トレーニングデータセットの増加と、モデルの大規模化が、将来的な AI の容量需要を押し上げる可能性があります。容量の需要がますます高まっており、高密度 QLC デバイスは、効率的なデータストレージを実現する理想的な選択肢となっています。 

本調査で、100 MW の AI データセンターの電力要件をモデル化することにより、Solidigm の高密度 QLC SSD が競合他社の TLC SSD と HDD の両方に対して大幅な電力効率のアドバンテージを実現できることが明らかになりました。データストレージの消費電力に注目すると、Solidigm の QLC SSD は、TLC SSD と比べて最大 19.5%、HDD と比べて最大 79.5% 効率が高いことが分かりました。さらに、Solidigm の QLC SSD を活用すれば、電力効率が高まり、データセンターでデプロイできるインフラの総数を増やせることが明らかになっています。100 MW のデータセンター内のインフラを評価したところ、QLC デバイスを使用すれば、TLC SSD と比べて最大 1.6%、HDD と比べて最大 26.3%、AI インフラを増やせることが分かりました。これらの結果は、高密度の QLC ストレージを使用すれば、企業はデータセンターの電力の制約を克服し、より大規模な AI コンピュートクラスタ、迅速な成果達成、AI 分野における全体的なイノベーションの拡大を実現できることを証明しています。

本調査で明らかになった結果以外にも、深刻化する AI のエネルギーの課題に関する議論において、Solidigm の高密度 QLC SSD を活用することで得られるエネルギー効率のアドバンテージは、主要なテクノロジーベンダーから認められています。Arm のバイスプレジデント、クロエ・マー氏は次のように述べています。「AI モデルが高度化するなか、AI のポテンシャルを最大限に引き出すには、エネルギー需要の増加に対応しなければなりません。コンピュート、ストレージ、ネットワーキングを包括する総合的なアプローチは、AI のワークロード用にインフラを最適化するためのカギとなります。広く利用されている Arm のコンピュートプラットフォームでは、クラウドからエッジに至るまで、このアプローチを実現しています。」

Solidigm の新しい 122 TB ストレージソリューションは、パフォーマンスと電力効率が高い Arm のテクノロジーを搭載しており、このような電力の課題を解決して、より効率的で拡張性の高いデータセンターの設計を実現することができます。
クロエ・マー Arm の IoT 事業部門担当、中国GTM バイスプレジデント

AI の進化が続くかぎり、データストレージは重要な役割を持ち続けます。Solidigm の高密度 QLC デバイスは、AI データセンターに理想的な選択肢として位置づけられています。AI のパフォーマンスと容量の需要に対応できる、高密度のオールフラッシュストレージを提供し、電力効率を最適化します。本調査の結果では、AI の電力消費において、データストレージが果たす重要な役割に注目しています。また、企業が電力効率を高め、AI の目標を達成するうえで、QLC デバイスをいかに役立てられるかを証明しています。


付録

下表は、調査の全結果を記載しています。

総電力 - ストレージのみ

表1は、単一ラックの GPU サーバーで必要なストレージインフラの消費電力を示しています。

  SolidigmのQLC TLC アドバンテージ ハイブリッド HDD アドバンテージ
小容量(1 PB) 2,258 W 2,335 W 3.30% 3,368 W 32.97%
中容量(5 PB) 2,690 W 3,080 W 12.65% 8,179 W 67%
大容量(10 PB) 3,230 W 4,011 W 19.46% 15,749 W 79.49%

表1. 総電力 - ストレージのみ

総電力 – コンピュートとストレージ

表2は、単一ラックに収容した GPU サーバーとその関連ストレージの合計消費電力を示しています。

 

  SolidigmのQLC TLC アドバンテージ ハイブリッド HDD アドバンテージ
小容量(1 PB) 46,706 W 46,783 W 0.16% 47,816 W 2.32%
中容量(5 PB) 47,138 W 47,528 W 1% 52,627 W 10%
大容量(10 PB) 47,678 W 48,459 W 1.61% 60,197 W 20.80%

表2. 総電力:コンピュートとストレージ

インフラ全体 – GPU コンピュートのラックとストレージ

表3は、100 MW のデータセンターでサポート可能な GPU サーバーのラックとその関連ストレージの総数を示しています。

 

  SolidigmのQLC TLC アドバンテージ ハイブリッド HDD アドバンテージ
小容量(1 PB) 1,647 1,644 0.17% 1,609 2.38%
中容量(5 PB) 1,632 1,618 0% 1,462 11.64%
大容量(10 PB) 1,613 1,587 1.64% 1,278 26.26%

表3. 100 MW のデータセンターでサポートされる AI インフラ

データストレージによる消費電力の割合
 

表4は、測定された構成それぞれについて 100 MW のデータセンターでデータストレージに起因する消費電力の合計パーセンテージを示しています。

 

  SolidigmのQLC TLC ハイブリッド HDD
小容量(1 PB) 3.72% 3.84% 5%
中容量(5 PB) 4.39% 4.98% 11.96%
大容量(10 PB) 5.21% 6.37% 20.12%


表4. 消費電力の割合

デューティサイクルの算出

以下の公式を使用して、モデル化された各デバイスのデューティサイクルを算出しました。

SSD のデューティサイクル = HDD のデューティサイクル * (SSD の容量 / HDD の容量) * (HDD のパフォーマンス / SSD のパフォーマンス)

HDD のデューティサイクルを 100% と仮定しました

デバイス

表5は、本調査で使用したデバイスに関する情報を示しています。

  SolidigmのQLC SSD TLC SSD HDD
容量 122.88 TB 61.44 TB 24 TB
読取パフォーマンス 7,462 MB/s 12,000 MB/s 285 MB/s
書込みパフォーマンス 3,250 MB/s 5,000 MB/s 285 MB/s
アクティブ時の読取電力 13.44 W 20 W* 8.2 W*
アクティブ時の書込み電力 22.08 W 20 W* 8.2 W*
アイドル時の電力 5 W 5 W 6.5

表5. デバイスの仕様

*TLC SSD と HDD の電力指標は、読取と書込みで分けていません。デバイスの仕様に記載の通り、読取/書込みを合わせた電力指標を両方の値に使用しました。

著者紹介

ミッチ・ルイスはコンピュータサイエンスとデータサイエンスに造詣の深い Signal65 のパフォーマンスアナリストです。ミッチは、データストレージ、データマネジメント、AI テクノロジーにおいて、その深い技術的知識を生かしています。Signal65 に参画する以前は、Evaluator Group で情報マネジメントの業界エキスパートとして勤務。その前は、Oracle でクラウドの実装主導を担当しています。

Signal65 について

Signal65 は、独立した調査、分析、およびアドバイザリー企業です。デジタルイノベーション、そして市場に破壊的変革をもたらすテクノロジーとトレンドにフォーカスしています。当社のアナリスト、研究者、アドバイザーは、世界中のビジネスリーダーが業界の大きな変化を予測し、破壊的イノベーションを生かして、市場で競争力を得ること、または維持することができるよう日々サポートしています。

[1] SSD 環境で2重レプリケーション、HDD 環境で3重レプリケーションを選択しました。冗長化アーキテクチャーは、Ceph のガイドラインに基づいて選択されています。(出典:Red Hat