データの大きな転換点:ネットワーク接続ストレージがAI躍進の原動力となる

20,000,000,000,000トークン、つまり、20兆トークン。これは、Alibabaの最新LLM基盤モデルであるQwen2.5-MAX のトレーニングデータセットのトークン数の推定値です。1 もし皆さんが(残念ながら)子孫と一緒にすべてのトークンを順番に入力する場合、その作業には約 6億年2かかるので、そのことを念頭に置いて計画を立てた方がよいでしょう。つまり、現代のAIは情報を大量に消費するため、AIのデータ入力および出力の保存と活用には、これまでにないストレージ容量と効率性の課題が生じているのです。ネットワーク接続ストレージ(NAS)ソリューションは、AIモデルの開発と展開に必要な膨大なデータセットを管理する重要なコンポーネントとして登場しました。AIにおけるNASの役割の重要性、大容量ソリッド・ステート・ドライブ (SSD) の価値、および、これらのドライブがAIデータパイプライン全体において、どこでどのように活用されているのかについて探ります。

NASがAIデータパイプラインにおいて中心的役割を果たす

極論を言えば、AIはデータと膨大な計算量の産物です。しかし、生のビットをシャープなモデルに変えるには、手を加える必要があります。AIのデータパイプラインは、次のような複数の異なる段階から構成され、相互に関連しあっています。 

  • データ取り込み
  • 準備、トレーニング
  • 微調整
  • 推論
  • アーカイブ 

NASは、一元化されたスケーラブルかつアクセスしやすいストレージアーキテクチャを提供し、分散システム間で膨大なデータに高速アクセスできるAIプロセスをサポートします。GPU コンピューティングサーバーにローカルに存在する直接接続ストレージ (DAS) とは異なり、NASは複数のサーバー、GPU、エッジデバイス間でシームレスなデータ共有が可能なため、協働しながら反復を繰り返すAIワークフローの性質に最適です。大容量SSDで理想的な状態に最適化されたNASシステムは、膨大なデータセットをすぐに処理できるようにし、レイテンシーを最小限に抑えながら GPUの利用率を最大化します。 

AIデータパイプラインのストレージ要件の可視化。

データ量は機械学習の生命線

機械学習では、データの量と多様性がモデルの性能を左右する重要な要素となります。トレーニングデータの量が多く多様性に富んでいるほど、モデルは実際のシナリオに近しいものになる傾向があります。学習データの量が増えれば、モデルがより幅広いパターンやエッジケースから学習できるようになるため、パフォーマンスが大幅に向上する可能性があります。

しかし、生データの入力は出発点に過ぎません。AIデータパイプラインは、その運用を通じて、以下のような増分データセットを生成し、使用します。

  • 変換されたデータ:IoTデバイス、ソーシャルメディア、医療用画像などのソースから取得した生データは、変換段階で抽出、クリーンアップ、再フォーマット化され、保存が必要な新しいデータセットが作成されます。
  • チェックポイントとモデルの成果物:トレーニング中、モデルは進行状況を保存するためにチェックポイントを生成します。これにより、特に頻繁に保存を行う大規模モデルでは、かなりのストレージを消費する可能性があります。
  • 合成データ:トレーニングデータセットの拡張、モデルの精度検証、データプライバシーに関する懸念事項に対処するため、人工的に生成されたデータ。
  • 推論出力:推論フェーズで処理された実世界のデータは、分析や再学習のために保存されることが多く、ストレージの需要をさらに増加させます。
  • 検索拡張生成(RAG)データベースのスケーリング:高品質な洞察を得るために大規模なデータセットや高次元性を必要とするソリューションでは、メモリが提供できる容量以上の容量が必要になる場合があります。
  • 推論におけるキーバリュー (KV) キャッシュのオーバーフロー:大規模なモデル、長いクエリ、またはマルチターン会話を含むアプリケーションでは、ローカルメモリが保持できる容量を超えるKV状態が生成される場合があります。
  • アーカイブデータ:生データ、変換データ、および処理済みデータの長期保存は、コンプライアンス、再トレーニング、監査目的において欠かせません。

これらのデータセットは増分更新をするため、初期の生データセットのサイズを大幅に上回るストレージが必要です。このため、大容量ドライブはNASソリューションにおいて重要な要素となります。

ユーザーがNASソリューションに求めるものは、能力か、電力か、容量か?

グローバルなデータセンターインフラプロバイダーである Digital Realtyは、最近の調査の中で、正式にAI戦略を導入する際に最大の障害となっているものについて、顧客に優先順位付けをしてもらいました。3 一番の課題は、膨大なデータセットを格納するデータストレージの不足でした。これに次いで、コンピューティングに必要な電力の不足、データストレージのための十分なスペース不足が課題となりました。  

最大容量122TBのソリダイムD5-P5336 SSD

これらの課題に対し、ソリダイムは世界最高容量のPCIe SSD、122.88TBのソリダイム™ D5-P5336を発表しました。比類のないドライブ容量、電力効率、データ密度を提供するこのドライブは、AI駆動型のNASを導入する際のゲームチェンジャーとなるでしょう。主な特徴は以下の通りです。

  • 世界最大容量のPCIe接続 SSD:122TB D5-P5336は膨大なデータセットが保存でき、その容量は、過去15シーズンのNFLの全試合を4Kで保存できるほどです。
  • 電力効率と容量効率:D5-P5336は、従来のハイブリッドHDD + TLC SSDソリューションと比較して、NASを導入した場合最大90%の消費電力削減を実現し5、30TB TLC SSDよりも1ワットあたりの2.5倍のテラバイト数を実現します。
  • コンパクトなフットプリント:D5-P5336は、NASのフットプリントを最大9倍削減し、6 物理インフラストラクチャを最小限に抑えながらデータセンターのストレージを拡張することができます。
  • 無制限のランダム書き込み耐久性: 24時間365日、32KBまたは4KBのランダム書き込みを行っても、5年間の保証期間中、このドライブが消耗することはありません。 

これらの特性は、AIデータパイプラインの要件、特に、大容量、耐久性、効率性の高いストレージが最も重要な取り込みおよびアーカイブ段階に最適です。

大容量SSDの価値をAIデータパイプライン段階にマッピングする

D5-P5336は、AIデータパイプラインの取り込み段階とアーカイブ段階において、各固有の課題に対応しカスタマイズされたメリットを提供します。

  • 取り込み:ここでは、イベントログ、CRMシステム、LIDARデータといった多様なソースからの生データが、高速でストレージに書き込まれます。この段階では、大規模な連続書き込みのアクティビティーが発生しますが、D5-P5336は、無制限の書き込み耐久性があるため、このアクティビティーを効率的かつ耐久性を持って処理します。大容量ドライブにより、NASシステムはビッグデータの「3V」特性(量、速度、多様性)に対応しながら、将来のデータ増加にも対応できる拡張性を維持することができます。
  • アーカイブ:この段階では、データプライバシー規制も考慮しながら、生データ、変換データ、処理済みデータを長期的に保存します。122.88TBのD5-P5336ベースの NASシステムは、42UのNASラック1台で53ペタバイトという驚異的なraw容量を実現し、5 アーカイブストレージの物理的フットプリントと消費電力を大幅に削減します。ハイブリッドソリューションに比べ、ストレージの消費電力が90%削減されるため、再トレーニングやコンプライアンスのためにデータを保存する場合、運用効率が大幅に向上します。
  • 準備&推論:NASは、データ準備および推論段階でDASと連携して、一元化されたスケーラブルなストレージを提供し、前処理、トレーニング、およびリアルタイムな推論タスクのための効率的なデータアクセス、管理、転送を実現します。
データ取り込み、データ準備、AIトレーニング、AI推論、データアーカイブからなるAIデータパイプラインの全体像。

これらの段階で最適化させていくことで、大容量SSDはAIデータパイプラインの全体的な効率を向上させ、データアクセス高速化、運用コストの削減、将来のストレージ増設に対応するスケーラビリティを実現します。

最後に

AIがデータストレージの限界を押し広げる中、大容量SSDを搭載したNASシステムは、AIデータセットの量、速度、多様性を管理するために不可欠なものとなっています。122.88TBのソリダイム D5-P5336 SSDは、ストレージ技術における飛躍的な進歩を体現し、NAS導入において比類なき容量、耐久性、効率性を実現します。 

ソリダイムSSDポートフォリオから見た、AIデータパイプラインにおけるソリダイムの優位性。

AIデータパイプラインの段階にデータを集約させていくことで、ソリダイムD5-P5336 は、組織がデータの潜在能力を最大限に活用し、より多くのデータだけでなく、より多様なデータを用いてモデルのパフォーマンス向上を実現していきます。AIのワークロードが進化するにつれて、NASと大容量SSDの組み合わせは、スケーラブルで効率的な高性能データインフラの要となり続けるでしょう。

詳細については、ソリダイムD5-P5336 122.88TB SSD製品概要をご覧ください。 


著者紹介

Dave Sierra は、Solidigm の製品マーケティングアナリストとして、今日のデータセンターが直面するインフラの効率化という課題の解決に取り組んでいます。

1 出典 - Epoch.AI、https://epoch.ai/data/notable-ai-models#Documentation 

2 平均トークンサイズが5文字の場合、平均タイピング速度が60wpmであると想定

3 出典:デジタルの実態、グローバルデータ・インサイト調査、2024年8月

4 4Kビデオのビットレート25Mbps、および、H.265/HEVC圧縮を基準として、1ゲームあたりのファイルサイズを30GBと仮定。NFLの試合の平均時間3時間、1シーズン272試合、に基づく。

5 出典 – ソリダイム。一部の結果はソリダイム社内の分析、アーキテクチャーシミュレーション、モデリングを使用して評価またはシミュレートされたものであり、情報提供のみを目的としています。システムのハードウェア、ソフトウェア、構成などの違いにより、実際の性能は掲載された性能テストや評価とは異なる場合があります。

6 出典 - ソリダイム。42UのNASラックを基準とし、36Uのストレージ容量を確保。18台の2Uストレージサーバーを配置し、各サーバーには24台の122.88TB SSDを搭載。

免責条項

本資料に記載した内容はすべて、明示されているか否かにかかわらず、いかなる保証も行うものではありません。ここにいう保証には、商品適格性、特定目的への適合性、および非侵害性の黙示の保証、ならびに履行の過程、取引の過程、または取引での使用から生じるあらゆる保証を含みますが、これらに限定されるわけではありません。

本書で説明されている製品には、「エラッタ」と呼ばれる設計上の不具合が含まれている可能性があり、公表されている仕様とは異なる動作をする場合があります。現在確認済みのエラッタについては、Solidigmまでお問い合わせください。

Solidigmは、サードパーティーのデータについて管理や監査を行っていません。ほかの情報も参考にしてデータの正確さを評価してください。

製品をご注文される前に最新の仕様をご希望の場合は、Solidigmの担当者または販売代理店にお問い合わせください。

SOLIDIGMおよびSolidigmの 「S」のロゴは、SK hynix NAND Product Solutions Corp. (d/b/a Solidigm) の米国、中国、日本、シンガポール、欧州連合、英国、メキシコ、およびその他の国々における登録商標です。