AIの進化とデータセンターにおける熱設計の考慮事項

データセンターにおけるSSD向けの、Solidigmの単面コールドプレート技術の有効性を示す氷結晶。
データセンターにおけるSSD向けの、Solidigmの単面コールドプレート技術の有効性を示す氷結晶。

概要

人工知能 (AI) とハイパフォーマンスコンピューティング (HPC) のワークロードは、データセンター全体でコンピュート密度の劇的な増加を引き起こしており、発熱量と電力需要も大幅に上昇しています。従来の空冷方式では、AIとHPCのワークロードを支えるデータセンターのインフラとコンポーネントの冷却に追いつけず苦戦しています。 インフラの電力プロファイルが、コンポーネントの電力と熱の限界を劇的に押し広げ続ける中で、上記のコンポーネントは有効性の限界に急速に近づいています。 

直接液冷方式 (DLC) は、CPU、GPU、DPU、NICとソリッドステートドライブ (SSD)など、サーバーとサーバーコンポーネントを冷却できる効果的な手法であり、熱効率の向上と運用コスト削減を実現する変革的なアプローチを提供します。Solidigmの完全液冷・ホットスワップ対応SSD(Solidigm™ D7-PS1010 E1.S)は、次世代のファンレスで熱最適化されたAIサーバーアーキテクチャの設計、開発と導入を可能にします。これによって、現代のデータセンターにおける熱管理とコスト削減という二重の課題に対応することができます。

AIワークロードと高まる熱課題

AIが進化し続けるにつれ、サーバーのワークロードはますます計算集約的、電力集約的になり、ラックあたりの電力密度は100kWを超える水準に達しています。上記の高性能GPUクラスターは、従来の空冷システムでは対応しきれない、前例のないレベルの熱流束を発生させています。この変化により、多くのデータセンターは、新たな冷却パラダイムの採用に向かっています。従来の空冷データセンターでは、通常は、電力使用効率(PUE)が約2.0で運用されていますが1、次世代の液冷データセンターでは、PUEが1.21という低水準を実現しており、エネルギー効率が大幅に向上していることを示しています。PUEを低減することによる副次効果と追加の優位点として、データセンターの運用コストを大幅に削減できることが挙げられます。

従来の空冷データセンターでは、冷却が全エネルギーコストの約35~45%1を占めています。液冷は有力な代替手段を提供し、エネルギー消費を最大で10%削減し、PUE を約15%改善することができます。上記の改善は、運用コストの低減にとどまらず、環境面での持続可能性にも寄与します。ABI Researchは、液冷市場は2030年までに37億ドル規模に達すると予測しており、計算密度の向上に対する需要と、300~500%に及ぶエネルギー効率の改善がその成長を後押ししています。2

液冷技術とインフラ

データセンターでは、ダイレクト・トゥ・チップ型のコールドプレート、リアドア型熱交換器、液浸式冷却システムなど、さまざまな液冷技術の採用が進んでいます。とりわけ、コールドプレート方式は、NVIDIA GB300プラットフォームを採用した導入事例に見られるように、ラックあたり最大で120kWの電力密度を支えることができます。液冷への後付けも実現可能ではありますが、最も効率的な導入は、グリーンフィールド型データセンターの構築で見られることが多く、初期段階から DLCシステムを収容することを前提として、インフラを目的設計することができます。

電力密度と性能プロファイルの最先端を牽引する高密度AIサーバーでは、サーバーの熱負荷に寄与するすべてのコンポーネントを考慮する必要があります。ファンでサーバーコンポーネント内部に強制的に空気を送り込み、横断的に流して冷却する従来の空冷方式では、上記の高性能コンポーネントに対しては、もはや十分に対応できなくなっています。液冷は、優れた熱管理ソリューションを提供します。液体は空気と比べて 1,000~3,000倍3の熱伝導性の優位性を有しており、放熱性能が向上し、システム全体の性能と寿命の改善が可能になります。

次世代の液冷SSDソリューション

SSDの液冷に対する従来の手法では、SSDの両面にコールドプレートを配置する方式が一般的です。冷却液はコールドプレート内を循環し、SSD本体とSSDの内部と両面に配置されたコンポーネントを冷却します。

液冷SSDの実装では、コールドプレートとSSDは通常、エンクロージャ内に収められ、デバイスの構造的完全性、保守性と、最適な熱伝達効率を確保できるようになっています。コールドプレートとSSDとの間における熱交換を最大化するために、サーマルインターフェイスマテリアル(TIM)を使用します。TIMは、SSDとコールドプレートの界面を形成し、両者の接触面積を大きく確保することで、最高の熱効率を実現します。

Solidigm D7-PS1010 9.5mm E1.S SSDは、単一のコールドプレートを利用してSSDの両面を冷却することによって、ストレージの熱管理における画期的な進展をもたらしています。この設計によって、1台のSSDを冷却するために必要なコールドプレートの数が削減されることに起因して、サーバーのドライブ実装密度と容量を高めることができます。さらに、NVIDIAと共同設計されたSolidigm D7-PS1010 9.5mm E1.S SSDとコールドプレートエンクロージャは、片面コールドプレートで25W超の放熱を実現します。これは、デュアルコールドプレートのソリューションでは大きな課題となるフルホットスワップ機能を実現するとともに、次世代のファンレスサーバー構成を支え、実現する将来対応設計になっています。

 SSD向けコールドプレート技術の比較:Solidigmの片面コールドプレート対両面コールドプレート 図1. 両面対片面によるコールドプレート実装の比較

 

本ドライブは、空冷と液冷の導入に対応する9.5mmフォームファクターと、空冷専用の導入に対応する15mmフォームファクターで提供されており、多様なインフラ要件に柔軟に対応します。Solidigm D7-PS1010 9.5mm E1.S SSDは、完全な液冷方式を採用したコンパクトな1Uサーバーの構築を可能にし、内部ファンを不要とすることで、より高い密度と熱効率を実現します。

データセンターは、SSDにまで液冷を拡張することで、熱スロットリングを削減し、システムの信頼性を向上させることができます。Solidigm SSDは、完全液冷でホットスワップ対応の設計で、エンタープライズ級の保守性を支えています。超小型でファンレスの1Uサーバーの開発も容易にし、ラックレベルの密度の向上、エアフロー設計の簡素化に加え、設備投資と運用費用の削減にも寄与します。上記のサーバーは、エネルギー消費合計の削減にも寄与し、企業が環境、社会とガバナンス(ESG)目標を達成する上でも役立ちます。

データセンターは、SSDの液冷化を取り入れることで、冷却システムに割り当てるスペースを最小限に抑え、よりコンパクトなレイアウトを実現できます。このスペース効率によって、同一施設内で計算密度を高めることも、性能を犠牲にすることなくデータセンター全体の規模を縮小することも可能になります。空冷構成では、非ラック領域の相当部分を占める可能性がある冷却関連スペースが削減され、その結果、約23~27%の全体的なスペース削減が得られます。4

まとめ

AIインフラの今後の方向性は、サブシステム全体にわたる液冷の採用にあります。これにより、すべてのサーバーコンポーネントが目標どおりの動作効率と機能を発揮でき、最高レベルのパフォーマンスを実現することが可能となります。データセンターの新設段階からSolidigm D7-PS1010のような完全液冷SSDを組み込むことで、最大の効果が得られます。既存の導入では、後付け導入には、冷却分配ユニットの実装など、インフラの更新が必要になります。HVACとサーバーのメンテナンスの削減によるPUEと総保有コスト(TCO)の改善効果を評価することで、投資の妥当性を検証する助けになります。将来の設計では、CPU、GPU、DPU、NICとストレージのすべてのコンポーネント間で冷却方式を調和させて、運用面と持続可能性の両面で最大の効果を実現しなければなりません。

AIが牽引するワークロードは、データセンターアーキテクチャを再定義しており、従来の冷却方式は限界に近づいています。液例は、ストレージデバイスまで拡張することで、熱効率の向上を通じて運用コストを削減する機会をもたらします。Solidigmの完全液冷SSDは、熱最適化された、次世代のファンレス高密度サーバー設計への道を開き、エネルギー使用とコストを削減しながら、運用効率を高めます。上記の革新により、データセンターは、将来のAIアプリケーションの要求に、より高い俊敏性と持続可能性をもって応えられるようになります。


著者紹介

Pompey Nagraは、Solidigmにおけるプロダクトおよびエコシステムマーケティングマネージャーです Pompeyは、コンピュート、ネットワーキング、ストレージ、通信業界における経験を有し、要求の厳しいデータセンターとI導入環境に向けて、ソリューションの開発と統合に携わってきました。Pompeyは、英国キングストン大学で、エレクトロニクス(コンピューティングおよびビジネス)の工学士号(BEng)を取得しています。

注:

1. https://en.wikipedia.org/wiki/Category:Data_centers

2. https://blog.geoactivegroup.com/2025/02/ai-driven-data-center-liquid-cooling.html

3. www.jtti.cc/supports/2895.html

4. https://www.solidigm.com/products/technology/economics-of-exabyte-data-storage.html#bodycopy5