AI 向けデータ ストレージにおける CMX (コンテキストメモリ eXtension) の概要

NVIDIA CMX™ (Context Memory eXtension) は、長文コンテキストや複数ターンの対話、エージェント型 AI の推論処理におけるキー・バリュー(KV)キャッシュを保存および管理するよう設計された AI ネイティブのストレージ層です。CMX は、専用のポッドレベルフラッシュ 層「G3.5」で  GPU メモリ を拡張することで、メモリウォールのボトルネックを防ぎ、AI モデルが高価な HBM (High Bandwidth Memory) を使い切ることなく、 長大な会話履歴や複雑な推論状態を維持 できるようにします。

CMX(Context Memory eXtension)とは?

CMX (旧称 ICMS または推論コンテキスト メモリ ストレージ) は、AI 推論処理の過程で生成された KV キャッシュのオフロードと再利用のために設計された専用ストレージ プラットフォームです。高速 GPU メモリと従来のバックエンド ストレージの間に位置し、ポッド単位のコンテキスト層として機能することで、AI エージェントが 長期的な記憶を保持 できるようにします。 NVIDIA は、CMX ベースの推論においてトークン/秒が最大 5倍 、電力効率が5倍向上 すると報告していますが、前提となるワークロードや構成、比較基準は公開 されていません。2

ICMS から CMX へ:AI メモリのリブランディング

NVIDIA は、永続的な Context Memory Storage レイヤーとしての役割を強調するため、 ICMS として最初に導入されたこの技術を  CMX  へとリブランドしました。これは、コンテキストをその場限りの一時的な情報として扱うのではなく、再利用可能な戦略的資産として活用する方向への転換を示します。2

  • 従来のアプローチ: KV キャッシュは、HBM に保持する(容量制限あり)、ローカル SSD にオフロードする(ポッド間で共有不可)、従来型のネットワークストレージに送る(競合や遅延あり)、または単に再計算する(計算、エネルギー、TTFTの無駄)のいずれかの方法で取り扱われていました。3 
  • CMXアプローチ: コンテキストは、BlueField-4 DPU によって管理されるイーサネット接続フラッシュ層にオフロードされるため、コンピュートポッド全体でアクセス可能です。

CMX がエージェント AI に不可欠である理由

現在の AI エージェント は、単に質問に答えるだけでは なく、数百万トークン規模のコンテキストを必要とする多段階の推論を行います。

  • 永続性: GPU メモリ容量を超えた場合でも、セッション  はタイムアウトすることも、詳細を失うこともありません。
  • 共有: 複数の AI エージェントが同じコンテキストメモリ プールに同時にアクセスできます。
  • 効率: 再計算せず、CMX の事前計算済み KV キャッシュを再利用するので、大量の 計算 サイクルと電力を節約できます。

CMX アーキテクチャの仕組み

CMX アーキテクチャは、Tier 3 と Tier 4 の間に位置する分離型のメモリ層 ( Tier G3.5 メモリ) として機能します。CMX は、NVIDIA BlueField-4 STX データ処理ユニット (DPU) を利用して、Spectrum-X イーサネット ファブリック上で NVMe SSD を管理します。 

2 つの専用ソフトウェアツールを使用し、メモリの移動をユーザーに見えない形で管理します。DOCA Memos は、ホスト CPU を介さずに、推論フレームワークが KV キャッシュブロックを CMX 層に読み書きできるキーバリュー API を提供します。NIXL (NVIDIA Inference Transfer Library) はタイミングを調整し、GPU が実際にデータを要求する 前に   必要な情報を確実に用意することで、要求後のアイドル状態を防ぎます。2

移動されるデータは KV キャッシュ、つまり、AI エージェントの現在の会話またはコンテキストの短期記憶です 。データをあらかじめ整理された単位で移動すると、プロセスが効率化されます。GPU が過去の会話を参照する必要がある場合、そのメモリ はすでに待機 しているため、次の結果の生成が 遅く なりません。

CMX のメモリ階層

CMX は、標準データセンタースタックに新しいレイヤーを導入します。

  • Tier 0  メモリ: GPU 内部に直接搭載  される最速のメモリ。超低レイテンシーで 容量が非常に小さく 、進行中の計算に即座に使われるメモリ。
  • Tier 1 メモリ: 高帯域幅メモリ (HBM) はアクセラレータ(例:Blackwell、Rubin)と一体化され、推論時にコンピュートコアにデータを供給するために必要な帯域 を提供します。
  • Tier 2 メモリ: DRAM/ホストメモリ(Grace/Vera CPU)、 高速システムRAM(Grace/Vera CPU) は、短期間のスピルオーバーに 使用されます。HBM より  大容量 で、レイテンシも 高くなります 。
  • Tier 3 メモリ: ローカルSSD ノードローカル NVMe フラッシュ。DRAMを超える容量を拡張しますが、ポッド内で共有することはできません。
  • Tier 3.5メモリ: CMX(G3.5 Tier) は 、イーサネット接続フラッシュ で構成され、頻繁に利用される再利用可能な KV キャッシュ用に最適化されています。 BlueField-4 と Spectrum-X を介してコンピュートポッド全体にアクセスできるため、GPU は次のステップでコンテキストを再計算する必要がありません。3 
  • Tier 4メモリ: ストレージ(通常は NVMe/Flash )は、長期ストレージ、 データレイク、 および コールドデータ アーカイブに使用されます。

BlueField-4 および DOCA メモの役割

  • BlueField-4 DPU は、CMX の"ストレージブレイン"として機能します。GPU からデータ整合性、暗号化、KV キャッシュルーティングを切り離す ことにより、 コンピューティングリソース を   トークン生成に 完全に集中させることができます。
  • DOCA Memos は、アプリケーションがこのストレージをあたかもローカルキャッシュであるかのように操作することを可能にする、簡素化された Key-Value API を提供します。

CMX の主な特徴と機能

CMX は、ハードウェア アクセラレーションによる KV キャッシュ配置、Spectrum-X を介した RDMA ベースのデータ転送、NVIDIA Dynamo によるシームレスなオーケストレーションを通じて、 パフォーマンス を強化します。コンテキストの再計算によるアイドル時間や停止を排除することで  GPU の利用効率 を最大化するとともに 、 大規模企業向け AI 環境に対応する  セキュアなマルチテナント環境 を提供します。

NVIDIA が報告する パフォーマンスと効率の向上

指標 従来のストレージ NVIDIA CMX プラットフォーム
スループット (TPS) ベースライン(1倍) 最大 5 倍2
電力効率 標準 最大 5 倍向上2    
TTFT レイテンシ 高(再計算) 低(キャッシュ再利用)
スケーリング ロジック 汎用 AI ネイティブ(KV 対応)

KV キャッシュの 再利用と NIXL

NVIDIA CMX は NIXL(NVIDIA Inference Transfer Library)を使用してイーサネット接続フラッシュをコンテキストプールに変え、AI がデータセット全体を読み直すことなく、複雑なタスクを即座に再開することを可能にします。この即時再開機能 により、AI はタスクを中断し、外部入力を待った後でも、思考状態を状態を完全に保持したまま再開できるため、真にエージェント型のワークフローが実現します。

CMX はメモリ階層のどの位置にあるのか

 CMXの影響を理解するには、これを現代のデータセンターに欠けていたピースとして捉えると分かりやすいでしょう。これまで、Tier 3 の高速 DRAM メモリ と Tier 4 の 標準ネットワークストレージの間には、かなり のパフォーマンスギャップがありました。CMXは、AIエージェントが即座に参照する必要がある、頻繁に使用される状況依存データを処理するために特別に 設計された、  Tier G3.5 メモリと呼ばれる新しい専用レイヤーを導入しました。

この階層は、速度、容量、コストのバランスを取るように構成され、各階層のサイズとレイテンシの両方が増加します。 CMX をこの階層に組み込むことで、NVIDIA は GPU が対話の状態をコスト効率の高いフラッシュ階層にオフロードできるようにしました。ユーザーがチャットに戻るか、エージェントがタスクの次のステップに移動すると、 NIXL (NVIDIA Inference Transfer Library) はその特定のメモリを即座に GPU に戻すので、高価な再計算の必要性が回避されます。2

今日の企業におけるCMXのユースケース

CMX は、長いコンテキストによる推論、セッションの即時再開、複数エージェントの連携を支える基盤インフラストラクチャです。CMX は、数十億トークンで数兆パラメータ規模を運用する企業に最適です。このような企業が膨大なコストやレイテンシを発生させずにスケールする唯一の方法は、持続的 な高速メモリ層を 維持することだからです。

マルチターン のエージェント型 推論

複雑な法律や医療に関する分析の場合、エージェントは数日間のやり取りを通じて数千ページもの文書を記憶していなければならない場合があります。CMX は、ユーザーが対話した瞬間に、このコンテキストを GPU に確実に事前配置し、AI エージェント が素早く応答し、深い知識を持っているように振る舞うことを可能にします。

高並行処理型 AI ファクトリー

何千人もの並行ユーザーを抱える組織でも、CMXが、メモリウォールによるシステムの クラッシュ を防ぎます。KV キャッシュを CMX 層にオフロードすることで、システムは GPU あたりのユーザー数を増やし、総所有コスト (TCO) を大幅に削減できます。

実装と エコシステム

CMX を実装するためには、 NVIDIA の BlueField-4 STX (ストレージ テクノロジ eXtensions) プロセッサを基盤として、水冷 JBOF エンクロージャーの E3.S NVMe SSD と組み合わせる 必要があります。NVIDIA がモジュール型のリファレンスアーキテクチャを提供し、製造およびストレージの パートナー がプラットフォームを構築します。コンピュート ポッド は RDMA を使用して Spectrum-X Ethernet 経由で CMX にアクセスします。KV キャッシュの移動は NVIDIA Dynamo によってオーケストレーションされ、DOCA Memos が BF4 の I/O プレーンを処理します。 

CMX エンクロージャ の エコシステム

NVIDIA は、SSD エンクロージャを自社で製造していません。STX リファレンスアーキテクチャは、 パートナー によって複数のレイヤーで 実装されています。プラットフォームは 2026 年後半に出荷開始の予定です。4

  • 製造 パートナー (JBOF/プラットフォームビルダー): AIC、Supermicro、Quanta Cloud Technology(QCT)。
  • システム OEM: Dell Technologies、 HPE、IBM、NetApp、日立ヴァンタラ、Nutanix。
  • ストレージ ソフトウェア プロバイダー: VAST Data、WEKA、DDN、 MinIO、 Cloudian、 Everpure。
  • 先行 導入 したクラウド プロバイダー: CoreWeave、Crusoe、IREN、Lambda、Mistral AI、 Nebius、Oracle Cloud Infrastructure、 Vultr。

 Solidigm™ 製品の中で CMX に最適な SSD はどれでしょうか。

CMX の展開に適した SSD は、ワークロードが多くの時間を費やしているのは KV キャッシュのライフサイクルのどこなのか、また制約がレイテンシのヘッドルームなのかラックレベルの密度なのかによって異なります。 Solidigm は、この設計スペースの両極に対応する 2 つの SSD を提供します。

頻繁に使われ、再利用されるコンテキスト層向けの Solidigm™ D7-PS1010

 Solidigm D7-PS1010 は、継続的な実際の運用環境における推論負荷の下でも、高いスループットと予測可能なレイテンシを実現できるように設計されている PCIe Gen5 TLC NVMe SSD です。処理の停止が GPU サイクルのアイドル時間につながる、長いコンテキストを扱う推論、複数ターンのエージェント処理、高並行ポッドには、 D7-PS1010 を推奨します。D7-PS1010 の性能特性は、トークン生成のクリティカルパスに位置するレイテンシに敏感な読み取り処理向けに設計されています。これはまさにポッドレベルのコンテキスト層が対応すべき条件です。

容量に基づいて安定的に保持されるコンテキストと準備済みの追加コンテキスト向けの Solidigm™ D5-P5336

 Solidigm D5-P5336 は、最大 122TB の容量で利用可能な高密度 QLC NVMe SSD です。ラックあたりの容量 (テラバイト) が制約となるような CMX 導入環境において、 D5-P5336 は限られたスペースと電力条件下で密度を最大化します。D5-P5336 はまた、上位の CMX 層にデータを供給する Tier 4 ネットワークストレージレイヤーの基盤として機能します。したがって、単一のベンダーで推論ストレージ階層全体を構築する組織に最適です。

どちらを選ぶか

一般的な目安:

  • 再利用が多く、レイテンシに敏感な KV トラフィック: D7-PS1010
  • 容量を基準としつつ、設置密度の制約を受ける導入環境: D5-P5336
  • 混在環境: どちらも適しています。D7-PS1010 はアクティブな CMX ティアにデータを提供し、D5-P5336 はすぐに使えるコンテキストデータとその下位にあるデータレイクの基盤として機能します。

フラッシュ、特にこれらの設計上のトレードオフが、なぜ推論におけるメモリウォールの解決策なのかについては、  Solidigm の記事 Inference Context Memory Storage(ICMS):を参照してください。AI 推論がフラッシュでしか解決できない問題になりつつある理由

AIの 未来を左右するContext Memory Storage 

 従来の 4 層メモリ階層 から CMX への移行は 、業界における人工知能の"メモリ"の取扱い方が大きく転換したことを意味します。CMX は従来の GPU VRAM やシステム DRAM の限界を超え、次世代の エージェント型 AIに 必要な 高帯域幅、低レイテンシの基盤を提供します。

モデルが進化し、1回のセッションで数兆個のパラメータや数百万個のトークンを処理するようになったことに伴い、Key-Value キャッシュを効果的に保存して再利用する能力は最適化ではなく 、必須条件になりました。CMX は、AI インフラが電力効率を 5 倍向上させ2、スループットを大幅に高めて、この需要に合わせてスケールすることを可能にしました。これまで長文コンテキスト推論の制約となっていた"メモリウォール"が実質的に克服されたのです。

イノベーションの最前線で AI を構築する企業にとって、CMX は、状態を持たないチャットボットを、文脈を保持する推論 ツールに変換する認知インフラストラクチャです。この専用 G3.5 ティアをデータセンタースタックに統合することで、組織は最終的に、高度なコンピュート性能を持つだけでなく、深い文脈理解も兼ね備えた AI 体験を提供できるようになります。


よくある質問

CMX は Context Memory eXtension の略です。Context Memory Storage と呼ばれることもあります。NVIDIA CEO Jensen Huang が  2026 年 1 月の CES で 発表 した当時は開発段階でしたが、その時点でCMX はICMS(Inference Context Management Storage)と呼ばれていました。 その後、2026 年 3 月に開かれた NVIDIA GTC の基調講演で ICMSP から CMX への名称変更が発表されました。 この名称変更には、従来のファイルベースのデータではなく、コンテキスト、すなわち AI の推論の数理的状態を優先する AI ネイティブなストレージに対する NVIDIA のより幅広いビジョンが反映されています。

いいえ、CMX は単なるハードウェアではありません。 CMX は、 Solidigm D7-PS1010 や D5-P5336 などの NVMe SSD を使用しますが、決め手は BlueField-4 DPU とソフトウェアスタック (DOCA Memos、NIXL、Dynamo) にあります。この組み合わせにより、システムは KV キャッシュ特有の構造を理解し、ホスト CPU を使わずに GPU とストレージの間でキャッシュを移動できるようになります。これは従来の SSD では不可能なことでした。

GPU は、コンテキストデータが再計算されたり、低速ストレージから読み込まれたりするのを待つ間、しばしばアイドル状態になります。CMX は、AI ワークロード向けに特別に調整された"ホット"層にこのデータを保持します。事前計算された KV キャッシュを再利用することで、GPU は冗長な作業に費やす時間を減らし、新しいトークンの生成により多くの時間を費やすことができるようになります。

NVIDIA はデータセンターのメモリを 階層に分類します。G1 と G2 はオンチップとオンノードメモリです。G3 は従来からローカル DRAMです。CMX は、従来のネットワークストレージ(G4)より高速で効率的であると同時に、ローカル SSD よりスケーラブルなイーサネット接続型のポッドレベル コンテキストメモリという新しいカテゴリ として 、"G3.5 "を生み出しました。

CMX へのブランド変更は 、わかりやすさと市場との整合性のために行われた 可能性が高いと思われます。"Context Memory Storage" または "Context Memory eXtension" は、AI スタックにおけるテクノロジーの役割をわかりやすく表した言葉です。単なる管理システムではなく、AI モデルの"メモリ"のための専用ストレージプラットフォームであることが強調されています。

はい。CMX は NVIDIA Spectrum-X イーサネット プラットフォーム上で実行できるように構築されています。RDMA(Remote Direct Memory Access)を使用してゼロコピー効率でデータを転送することから、これは必須です。Spectrum-X の低レイテンシ、ロスレスファブリックがなければ、CMX ティアの性能上のメリットは、ネットワークの遅延のばらつきによって制約されてしまいます。

現時点において、CMX はフルスタックの NVIDIA ソリューションです。NIXL や DOCA などの NVIDIA 専用ライブラリを 活用し、 Vera Rubin および Blackwell プラットフォーム内で動作するように設計されています。NVIDIA エコシステムと緊密に統合され、推論に 必要な サブミリ秒のレイテンシを提供します。

CMX 階層のデータは、 一時的な コンテキストとして扱われます。オーケストレーションレイヤ (NVIDIA Dynamo など) のポリシーセットに応じて、将来的な再利用のためにコンテキストをキャッシュしたり、長期アーカイブ用にコールドストレージに移動したり、 削除 して新しいセッションのための空き容量を確保したりすることができます。

ユーザーが新しい質問をするたびに100万トークンのコンテキストを再計算したとすれば、大量の電力を消費します。事前計算済みの状態を CMX に保存し、単に"読み戻す"だけで、システムはすべての推論計算を再度実行した場合より、消費電力をはるかに小さくすることができます。

NVIDIA CMX および基盤となる BlueField-4 STX アーキテクチャは、2026 年下半期 より、ハードウェアおよびストレージ パートナーを通じて提供が開始される予定です。 AIC、 Supermicro、QCT などの主要ベンダーは、初代 CMX 互換ストレージサーバーをすでに 紹介 しています。


著者紹介

Jeff Harthorn は 、Solidigm の AI 応用研究リードです。業務の中心は、AI ワークロードとストレージ アーキテクチャで、推論、コンテキストメモリ、データ パイプライン設計に重点を置いています。応用研究、ベンチマーキング、技術的ストーリーテリングを組み合わせ、複雑なインフラストラクチャの話題を、顧客、 パートナー、経営陣のための実用的なインサイトに変換します。カリフォルニア州立大学サクラメント校でコンピューターエンジニアリングの理学士号を取得しました。

Cecily Whitesideは、 Solidigmの 検索 およびコンテンツスペシャリストです。テクノロジー、ライフスタイル、ヘルス&ウェルネスに関するウェブサイトや出版物を執筆しています。 複数の雑誌で編集長を務め、米国と海外の両方で作家や写真家として貢献してきました。

参考資料:

  1. NVIDIA CMX コンテキストメモリ ストレージ プラットフォーム; NVIDIA (https://www.nvidia.com/en-us/data-center/ai-storage/cmx/)
  2. 「AI の次なる未開発領域を切り開く NVIDIA BlueField-4-Powered CMX Context Memory Storage プラットフォームの紹介」NVIDIA 発行。(https://developer.nvidia.com/blog/introducing-nvidia-bluefield-4-powered-inference-context-memory-storage-platform-for-the-next-frontier-of-ai/)
  3. 推論コンテキストメモリ ストレージ(ICMS):「課題化しつつある AI 推論 - 唯一の解決策は フラッシュ」 Solidigm 発行。 (https://www.solidigm.com/products/technology/icmsp-ai-inference-is-flash-storage-problem.html)
  4. 「NVIDIA Vera Rubin がエージェント AI のフロンティアを開拓」NVIDIA Newsroom。((https://nvidianews.nvidia.com/news/nvidia-vera-rubin-platform