AI 向けデータストレージにおける CMX (コンテキストメモリ eXtension) の概要

NVIDIA CMX™ (Context Memory eXtension) は、長文コンテキストや複数ターンの対話、エージェント型 AI の推論処理におけるキー・バリュー（KV）キャッシュを保存および管理するよう設計された AI ネイティブのストレージ層です。CMX は、専用のポッドレベルフラッシュ層「G3.5」で GPU メモリを拡張することで、メモリウォールのボトルネックを防ぎ、AI モデルが高価な HBM (High Bandwidth Memory) を使い切ることなく、長大な会話履歴や複雑な推論状態を維持できるようにします。

CMX（Context Memory eXtension）とは？

CMX (旧称 ICMS または推論コンテキストメモリストレージ) は、AI 推論処理の過程で生成された KV キャッシュのオフロードと再利用のために設計された専用ストレージプラットフォームです。高速 GPU メモリと従来のバックエンドストレージの間に位置し、ポッド単位のコンテキスト層として機能することで、AI エージェントが長期的な記憶を保持できるようにします。 NVIDIA は、CMX ベースの推論においてトークン/秒が最大 5倍、電力効率が5倍向上すると報告していますが、前提となるワークロードや構成、比較基準は公開されていません。²

ICMS から CMX へ：AI メモリのリブランディング

NVIDIA は、永続的な Context Memory Storage レイヤーとしての役割を強調するため、 ICMS として最初に導入されたこの技術を CMX へとリブランドしました。これは、コンテキストをその場限りの一時的な情報として扱うのではなく、再利用可能な戦略的資産として活用する方向への転換を示します。²

従来のアプローチ： KV キャッシュは、HBM に保持する（容量制限あり）、ローカル SSD にオフロードする（ポッド間で共有不可）、従来型のネットワークストレージに送る（競合や遅延あり）、または単に再計算する（計算、エネルギー、TTFTの無駄）のいずれかの方法で取り扱われていました。3
CMXアプローチ： コンテキストは、BlueField-4 DPU によって管理されるイーサネット接続フラッシュ層にオフロードされるため、コンピュートポッド全体でアクセス可能です。

CMX がエージェント AI に不可欠である理由

現在の AI エージェントは、単に質問に答えるだけではなく、数百万トークン規模のコンテキストを必要とする多段階の推論を行います。

永続性: GPU メモリ容量を超えた場合でも、セッションはタイムアウトすることも、詳細を失うこともありません。
共有: 複数の AI エージェントが同じコンテキストメモリプールに同時にアクセスできます。
効率: 再計算せず、CMX の事前計算済み KV キャッシュを再利用するので、大量の計算サイクルと電力を節約できます。

CMX アーキテクチャの仕組み

CMX アーキテクチャは、Tier 3 と Tier 4 の間に位置する分離型のメモリ層 ( Tier G3.5 メモリ) として機能します。CMX は、NVIDIA BlueField-4 STX データ処理ユニット (DPU) を利用して、Spectrum-X イーサネットファブリック上で NVMe SSD を管理します。

2 つの専用ソフトウェアツールを使用し、メモリの移動をユーザーに見えない形で管理します。DOCA Memos は、ホスト CPU を介さずに、推論フレームワークが KV キャッシュブロックを CMX 層に読み書きできるキーバリュー API を提供します。NIXL （NVIDIA Inference Transfer Library）はタイミングを調整し、GPU が実際にデータを要求する前に必要な情報を確実に用意することで、要求後のアイドル状態を防ぎます。²

移動されるデータは KV キャッシュ、つまり、AI エージェントの現在の会話またはコンテキストの短期記憶です。データをあらかじめ整理された単位で移動すると、プロセスが効率化されます。GPU が過去の会話を参照する必要がある場合、そのメモリはすでに待機しているため、次の結果の生成が遅くなりません。

CMX のメモリ階層

CMX は、標準データセンタースタックに新しいレイヤーを導入します。

Tier 0 メモリ: GPU 内部に直接搭載される最速のメモリ。超低レイテンシーで容量が非常に小さく、進行中の計算に即座に使われるメモリ。
Tier 1 メモリ：高帯域幅メモリ（HBM） はアクセラレータ（例：Blackwell、Rubin）と一体化され、推論時にコンピュートコアにデータを供給するために必要な帯域を提供します。
Tier 2 メモリ： DRAM/ホストメモリ（Grace/Vera CPU）、高速システムRAM（Grace/Vera CPU）は、短期間のスピルオーバーに使用されます。HBM より大容量で、レイテンシも高くなります。
Tier 3 メモリ: ローカルSSD ノードローカル NVMe フラッシュ。DRAMを超える容量を拡張しますが、ポッド内で共有することはできません。
Tier 3.5メモリ： CMX（G3.5 Tier） は、イーサネット接続フラッシュで構成され、頻繁に利用される再利用可能な KV キャッシュ用に最適化されています。 BlueField-4 と Spectrum-X を介してコンピュートポッド全体にアクセスできるため、GPU は次のステップでコンテキストを再計算する必要がありません。³
Tier 4メモリ：ストレージ（通常は NVMe/Flash ）は、長期ストレージ、データレイク、およびコールドデータアーカイブに使用されます。

BlueField-4 および DOCA メモの役割

BlueField-4 DPU は、CMX の"ストレージブレイン"として機能します。GPU からデータ整合性、暗号化、KV キャッシュルーティングを切り離すことにより、コンピューティングリソースをトークン生成に完全に集中させることができます。
DOCA Memos は、アプリケーションがこのストレージをあたかもローカルキャッシュであるかのように操作することを可能にする、簡素化された Key-Value API を提供します。

CMX の主な特徴と機能

CMX は、ハードウェアアクセラレーションによる KV キャッシュ配置、Spectrum-X を介した RDMA ベースのデータ転送、NVIDIA Dynamo によるシームレスなオーケストレーションを通じて、パフォーマンスを強化します。コンテキストの再計算によるアイドル時間や停止を排除することで GPU の利用効率を最大化するとともに、大規模企業向け AI 環境に対応するセキュアなマルチテナント環境を提供します。

NVIDIA が報告するパフォーマンスと効率の向上

指標	従来のストレージ	NVIDIA CMX プラットフォーム
スループット (TPS)	ベースライン（1倍）	最大 5 倍²
電力効率	標準	最大 5 倍向上²
TTFT レイテンシ	高（再計算）	低（キャッシュ再利用）
スケーリングロジック	汎用	AI ネイティブ（KV 対応）

KV キャッシュの再利用と NIXL

NVIDIA CMX は NIXL（NVIDIA Inference Transfer Library）を使用してイーサネット接続フラッシュをコンテキストプールに変え、AI がデータセット全体を読み直すことなく、複雑なタスクを即座に再開することを可能にします。この即時再開機能により、AI はタスクを中断し、外部入力を待った後でも、思考状態を状態を完全に保持したまま再開できるため、真にエージェント型のワークフローが実現します。

CMX はメモリ階層のどの位置にあるのか

CMXの影響を理解するには、これを現代のデータセンターに欠けていたピースとして捉えると分かりやすいでしょう。これまで、Tier 3 の高速 DRAM メモリと Tier 4 の標準ネットワークストレージの間には、かなりのパフォーマンスギャップがありました。CMXは、AIエージェントが即座に参照する必要がある、頻繁に使用される状況依存データを処理するために特別に設計された、 Tier G3.5 メモリと呼ばれる新しい専用レイヤーを導入しました。

この階層は、速度、容量、コストのバランスを取るように構成され、各階層のサイズとレイテンシの両方が増加します。 CMX をこの階層に組み込むことで、NVIDIA は GPU が対話の状態をコスト効率の高いフラッシュ階層にオフロードできるようにしました。ユーザーがチャットに戻るか、エージェントがタスクの次のステップに移動すると、 NIXL (NVIDIA Inference Transfer Library) はその特定のメモリを即座に GPU に戻すので、高価な再計算の必要性が回避されます。²

今日の企業におけるCMXのユースケース

CMX は、長いコンテキストによる推論、セッションの即時再開、複数エージェントの連携を支える基盤インフラストラクチャです。CMX は、数十億トークンで数兆パラメータ規模を運用する企業に最適です。このような企業が膨大なコストやレイテンシを発生させずにスケールする唯一の方法は、持続的な高速メモリ層を維持することだからです。

マルチターンのエージェント型推論

複雑な法律や医療に関する分析の場合、エージェントは数日間のやり取りを通じて数千ページもの文書を記憶していなければならない場合があります。CMX は、ユーザーが対話した瞬間に、このコンテキストを GPU に確実に事前配置し、AI エージェントが素早く応答し、深い知識を持っているように振る舞うことを可能にします。

高並行処理型 AI ファクトリー

何千人もの並行ユーザーを抱える組織でも、CMXが、メモリウォールによるシステムのクラッシュを防ぎます。KV キャッシュを CMX 層にオフロードすることで、システムは GPU あたりのユーザー数を増やし、総所有コスト (TCO) を大幅に削減できます。

実装とエコシステム

CMX を実装するためには、 NVIDIA の BlueField-4 STX (ストレージテクノロジ eXtensions) プロセッサを基盤として、水冷 JBOF エンクロージャーの E3.S NVMe SSD と組み合わせる必要があります。NVIDIA がモジュール型のリファレンスアーキテクチャを提供し、製造およびストレージのパートナーがプラットフォームを構築します。コンピュートポッドは RDMA を使用して Spectrum-X Ethernet 経由で CMX にアクセスします。KV キャッシュの移動は NVIDIA Dynamo によってオーケストレーションされ、DOCA Memos が BF4 の I/O プレーンを処理します。

CMX エンクロージャのエコシステム

NVIDIA は、SSD エンクロージャを自社で製造していません。STX リファレンスアーキテクチャは、パートナーによって複数のレイヤーで実装されています。プラットフォームは 2026 年後半に出荷開始の予定です。⁴

製造パートナー（JBOF/プラットフォームビルダー）： AIC、Supermicro、Quanta Cloud Technology（QCT）。
システム OEM： Dell Technologies、 HPE、IBM、NetApp、日立ヴァンタラ、Nutanix。
ストレージソフトウェアプロバイダー： VAST Data、WEKA、DDN、 MinIO、 Cloudian、 Everpure。
先行導入したクラウドプロバイダー： CoreWeave、Crusoe、IREN、Lambda、Mistral AI、 Nebius、Oracle Cloud Infrastructure、 Vultr。

Solidigm™ 製品の中で CMX に最適な SSD はどれでしょうか。

CMX の展開に適した SSD は、ワークロードが多くの時間を費やしているのは KV キャッシュのライフサイクルのどこなのか、また制約がレイテンシのヘッドルームなのかラックレベルの密度なのかによって異なります。 Solidigm は、この設計スペースの両極に対応する 2 つの SSD を提供します。

頻繁に使われ、再利用されるコンテキスト層向けの Solidigm™ D7-PS1010

Solidigm D7-PS1010 は、継続的な実際の運用環境における推論負荷の下でも、高いスループットと予測可能なレイテンシを実現できるように設計されている PCIe Gen5 TLC NVMe SSD です。処理の停止が GPU サイクルのアイドル時間につながる、長いコンテキストを扱う推論、複数ターンのエージェント処理、高並行ポッドには、 D7-PS1010 を推奨します。D7-PS1010 の性能特性は、トークン生成のクリティカルパスに位置するレイテンシに敏感な読み取り処理向けに設計されています。これはまさにポッドレベルのコンテキスト層が対応すべき条件です。

容量に基づいて安定的に保持されるコンテキストと準備済みの追加コンテキスト向けの Solidigm™ D5-P5336

Solidigm D5-P5336 は、最大 122TB の容量で利用可能な高密度 QLC NVMe SSD です。ラックあたりの容量 (テラバイト) が制約となるような CMX 導入環境において、 D5-P5336 は限られたスペースと電力条件下で密度を最大化します。D5-P5336 はまた、上位の CMX 層にデータを供給する Tier 4 ネットワークストレージレイヤーの基盤として機能します。したがって、単一のベンダーで推論ストレージ階層全体を構築する組織に最適です。

どちらを選ぶか

一般的な目安：

再利用が多く、レイテンシに敏感な KV トラフィック： D7-PS1010
容量を基準としつつ、設置密度の制約を受ける導入環境： D5-P5336
混在環境： どちらも適しています。D7-PS1010 はアクティブな CMX ティアにデータを提供し、D5-P5336 はすぐに使えるコンテキストデータとその下位にあるデータレイクの基盤として機能します。

フラッシュ、特にこれらの設計上のトレードオフが、なぜ推論におけるメモリウォールの解決策なのかについては、 Solidigm の記事 Inference Context Memory Storage（ICMS）：を参照してください。AI 推論がフラッシュでしか解決できない問題になりつつある理由

AIの未来を左右するContext Memory Storage

従来の 4 層メモリ階層から CMX への移行は、業界における人工知能の"メモリ"の取扱い方が大きく転換したことを意味します。CMX は従来の GPU VRAM やシステム DRAM の限界を超え、次世代の エージェント型 AIに必要な高帯域幅、低レイテンシの基盤を提供します。

モデルが進化し、1回のセッションで数兆個のパラメータや数百万個のトークンを処理するようになったことに伴い、Key-Value キャッシュを効果的に保存して再利用する能力は最適化ではなく、必須条件になりました。CMX は、AI インフラが電力効率を 5 倍向上させ²、スループットを大幅に高めて、この需要に合わせてスケールすることを可能にしました。これまで長文コンテキスト推論の制約となっていた"メモリウォール"が実質的に克服されたのです。

イノベーションの最前線で AI を構築する企業にとって、CMX は、状態を持たないチャットボットを、文脈を保持する推論ツールに変換する認知インフラストラクチャです。この専用 G3.5 ティアをデータセンタースタックに統合することで、組織は最終的に、高度なコンピュート性能を持つだけでなく、深い文脈理解も兼ね備えた AI 体験を提供できるようになります。

よくある質問

CMX は Context Memory eXtension の略です。Context Memory Storage と呼ばれることもあります。NVIDIA CEO Jensen Huang が 2026 年 1 月の CES で発表した当時は開発段階でしたが、その時点でCMX はICMS（Inference Context Management Storage）と呼ばれていました。その後、2026 年 3 月に開かれた NVIDIA GTC の基調講演で ICMSP から CMX への名称変更が発表されました。この名称変更には、従来のファイルベースのデータではなく、コンテキスト、すなわち AI の推論の数理的状態を優先する AI ネイティブなストレージに対する NVIDIA のより幅広いビジョンが反映されています。

いいえ、CMX は単なるハードウェアではありません。 CMX は、 Solidigm D7-PS1010 や D5-P5336 などの NVMe SSD を使用しますが、決め手は BlueField-4 DPU とソフトウェアスタック (DOCA Memos、NIXL、Dynamo) にあります。この組み合わせにより、システムは KV キャッシュ特有の構造を理解し、ホスト CPU を使わずに GPU とストレージの間でキャッシュを移動できるようになります。これは従来の SSD では不可能なことでした。

GPU は、コンテキストデータが再計算されたり、低速ストレージから読み込まれたりするのを待つ間、しばしばアイドル状態になります。CMX は、AI ワークロード向けに特別に調整された"ホット"層にこのデータを保持します。事前計算された KV キャッシュを再利用することで、GPU は冗長な作業に費やす時間を減らし、新しいトークンの生成により多くの時間を費やすことができるようになります。

NVIDIA はデータセンターのメモリを階層に分類します。G1 と G2 はオンチップとオンノードメモリです。G3 は従来からローカル DRAMです。CMX は、従来のネットワークストレージ（G4）より高速で効率的であると同時に、ローカル SSD よりスケーラブルなイーサネット接続型のポッドレベルコンテキストメモリという新しいカテゴリとして、"G3.5 "を生み出しました。

CMX へのブランド変更は、わかりやすさと市場との整合性のために行われた可能性が高いと思われます。"Context Memory Storage" または "Context Memory eXtension" は、AI スタックにおけるテクノロジーの役割をわかりやすく表した言葉です。単なる管理システムではなく、AI モデルの"メモリ"のための専用ストレージプラットフォームであることが強調されています。

はい。CMX は NVIDIA Spectrum-X イーサネットプラットフォーム上で実行できるように構築されています。RDMA（Remote Direct Memory Access）を使用してゼロコピー効率でデータを転送することから、これは必須です。Spectrum-X の低レイテンシ、ロスレスファブリックがなければ、CMX ティアの性能上のメリットは、ネットワークの遅延のばらつきによって制約されてしまいます。

現時点において、CMX はフルスタックの NVIDIA ソリューションです。NIXL や DOCA などの NVIDIA 専用ライブラリを活用し、 Vera Rubin および Blackwell プラットフォーム内で動作するように設計されています。NVIDIA エコシステムと緊密に統合され、推論に必要なサブミリ秒のレイテンシを提供します。

CMX 階層のデータは、一時的なコンテキストとして扱われます。オーケストレーションレイヤ (NVIDIA Dynamo など) のポリシーセットに応じて、将来的な再利用のためにコンテキストをキャッシュしたり、長期アーカイブ用にコールドストレージに移動したり、削除して新しいセッションのための空き容量を確保したりすることができます。

ユーザーが新しい質問をするたびに100万トークンのコンテキストを再計算したとすれば、大量の電力を消費します。事前計算済みの状態を CMX に保存し、単に"読み戻す"だけで、システムはすべての推論計算を再度実行した場合より、消費電力をはるかに小さくすることができます。

NVIDIA CMX および基盤となる BlueField-4 STX アーキテクチャは、2026 年下半期より、ハードウェアおよびストレージパートナーを通じて提供が開始される予定です。 AIC、 Supermicro、QCT などの主要ベンダーは、初代 CMX 互換ストレージサーバーをすでに紹介しています。

著者紹介

Jeff Harthorn は、Solidigm の AI 応用研究リードです。業務の中心は、AI ワークロードとストレージアーキテクチャで、推論、コンテキストメモリ、データパイプライン設計に重点を置いています。応用研究、ベンチマーキング、技術的ストーリーテリングを組み合わせ、複雑なインフラストラクチャの話題を、顧客、パートナー、経営陣のための実用的なインサイトに変換します。カリフォルニア州立大学サクラメント校でコンピューターエンジニアリングの理学士号を取得しました。

Cecily Whitesideは、 Solidigmの検索およびコンテンツスペシャリストです。テクノロジー、ライフスタイル、ヘルス&ウェルネスに関するウェブサイトや出版物を執筆しています。複数の雑誌で編集長を務め、米国と海外の両方で作家や写真家として貢献してきました。

参考資料:

NVIDIA CMX コンテキストメモリストレージプラットフォーム; NVIDIA (https://www.nvidia.com/en-us/data-center/ai-storage/cmx/)
「AI の次なる未開発領域を切り開く NVIDIA BlueField-4-Powered CMX Context Memory Storage プラットフォームの紹介」NVIDIA 発行。(https://developer.nvidia.com/blog/introducing-nvidia-bluefield-4-powered-inference-context-memory-storage-platform-for-the-next-frontier-of-ai/)
推論コンテキストメモリストレージ（ICMS）：「課題化しつつある AI 推論 - 唯一の解決策はフラッシュ」 Solidigm 発行。 (https://www.solidigm.com/products/technology/icmsp-ai-inference-is-flash-storage-problem.html)
「NVIDIA Vera Rubin がエージェント AI のフロンティアを開拓」NVIDIA Newsroom。(（https://nvidianews.nvidia.com/news/nvidia-vera-rubin-platform）

すべてのニュース

何をお探しですか？

いらっしゃいませ

私のプロフィール

mySolidigm

設定

サインアウト

AI 向けデータストレージにおける CMX (コンテキストメモリ eXtension) の概要

CMX（Context Memory eXtension）とは？

ICMS から CMX へ：AI メモリのリブランディング

CMX がエージェント AI に不可欠である理由

CMX アーキテクチャの仕組み

CMX のメモリ階層

BlueField-4 および DOCA メモの役割

CMX の主な特徴と機能

NVIDIA が報告するパフォーマンスと効率の向上

KV キャッシュの再利用と NIXL

CMX はメモリ階層のどの位置にあるのか

今日の企業におけるCMXのユースケース

マルチターンのエージェント型推論

高並行処理型 AI ファクトリー

実装とエコシステム

CMX エンクロージャのエコシステム

Solidigm™ 製品の中で CMX に最適な SSD はどれでしょうか。

頻繁に使われ、再利用されるコンテキスト層向けの Solidigm™ D7-PS1010

容量に基づいて安定的に保持されるコンテキストと準備済みの追加コンテキスト向けの Solidigm™ D5-P5336

どちらを選ぶか

AIの未来を左右するContext Memory Storage

よくある質問

著者紹介

参考資料:

関連記事

Solidigm SSDがKVキャッシュにコンテキストを保存すると、ICMSPがより大きなAIスケールをアンロックします。

Solidigm™ソリッドステートドライブによるAIワークロードの最適化

データセンターコンポーネント向け液冷の概要

次世代ストレージの実現

AI 向けデータ ストレージにおける CMX (コンテキストメモリ eXtension) の概要

CMX（Context Memory eXtension）とは？

ICMS から CMX へ：AI メモリのリブランディング

CMX がエージェント AI に不可欠である理由

CMX アーキテクチャの仕組み

CMX のメモリ階層

BlueField-4 および DOCA メモの役割

CMX の主な特徴と機能

NVIDIA が報告する パフォーマンスと効率の向上

KV キャッシュの 再利用と NIXL

CMX はメモリ階層のどの位置にあるのか

今日の企業におけるCMXのユースケース

マルチターン のエージェント型 推論

高並行処理型 AI ファクトリー

実装と エコシステム

CMX エンクロージャ の エコシステム

Solidigm™ 製品の中で CMX に最適な SSD はどれでしょうか。

頻繁に使われ、再利用されるコンテキスト層向けの Solidigm™ D7-PS1010

容量に基づいて安定的に保持されるコンテキストと準備済みの追加コンテキスト向けの Solidigm™ D5-P5336

どちらを選ぶか

AIの 未来を左右するContext Memory Storage

よくある質問

CMX は何の略ですか？

CMXは単なる高速SSDですか？

CMX は GPU の使用効率をどのように向上させますか?

G3.5 ティアとは何ですか?

NVIDIA が ICMS を CMX に変更したのはなぜですか?

CMX には専用ネットワークが必要ですか？

CMX は、NVIDIA 以外の GPU でも使用できますか?

セッション終了後、CMX のデータはどうなるのですか？

CMX はどのようにして節電するのですか？

CMX はいつから提供されるのですか？

著者紹介

参考資料:

関連記事

Solidigm SSDがKVキャッシュにコンテキストを保存すると、ICMSPがより大きなAIスケールをアンロックします。

Solidigm™ソリッドステートドライブによるAIワークロードの最適化

データセンターコンポーネント向け液冷の概要

次世代ストレージの実現

AI 向けデータストレージにおける CMX (コンテキストメモリ eXtension) の概要

NVIDIA が報告するパフォーマンスと効率の向上

KV キャッシュの再利用と NIXL

マルチターンのエージェント型推論

実装とエコシステム

CMX エンクロージャのエコシステム

AIの未来を左右するContext Memory Storage