20,000,000,000,000トークン、つまり、20兆トークン。これは、Alibabaの最新LLM基盤モデルであるQwen2.5-MAX のトレーニングデータセットのトークン数の推定値です。1 もし皆さんが(残念ながら)子孫と一緒にすべてのトークンを順番に入力する場合、その作業には約 6億年2かかるので、そのことを念頭に置いて計画を立てた方がよいでしょう。つまり、現代のAIは情報を大量に消費するため、AIのデータ入力および出力の保存と活用には、これまでにないストレージ容量と効率性の課題が生じているのです。ネットワーク接続ストレージ(NAS)ソリューションは、AIモデルの開発と展開に必要な膨大なデータセットを管理する重要なコンポーネントとして登場しました。AIにおけるNASの役割の重要性、大容量ソリッド・ステート・ドライブ (SSD) の価値、および、これらのドライブがAIデータパイプライン全体において、どこでどのように活用されているのかについて探ります。
極論を言えば、AIはデータと膨大な計算量の産物です。しかし、生のビットをシャープなモデルに変えるには、手を加える必要があります。AIのデータパイプラインは、次のような複数の異なる段階から構成され、相互に関連しあっています。
NASは、一元化されたスケーラブルかつアクセスしやすいストレージアーキテクチャを提供し、分散システム間で膨大なデータに高速アクセスできるAIプロセスをサポートします。GPU コンピューティングサーバーにローカルに存在する直接接続ストレージ (DAS) とは異なり、NASは複数のサーバー、GPU、エッジデバイス間でシームレスなデータ共有が可能なため、協働しながら反復を繰り返すAIワークフローの性質に最適です。大容量SSDで理想的な状態に最適化されたNASシステムは、膨大なデータセットをすぐに処理できるようにし、レイテンシーを最小限に抑えながら GPUの利用率を最大化します。
機械学習では、データの量と多様性がモデルの性能を左右する重要な要素となります。トレーニングデータの量が多く多様性に富んでいるほど、モデルは実際のシナリオに近しいものになる傾向があります。学習データの量が増えれば、モデルがより幅広いパターンやエッジケースから学習できるようになるため、パフォーマンスが大幅に向上する可能性があります。
しかし、生データの入力は出発点に過ぎません。AIデータパイプラインは、その運用を通じて、以下のような増分データセットを生成し、使用します。
これらのデータセットは増分更新をするため、初期の生データセットのサイズを大幅に上回るストレージが必要です。このため、大容量ドライブはNASソリューションにおいて重要な要素となります。
グローバルなデータセンターインフラプロバイダーである Digital Realtyは、最近の調査の中で、正式にAI戦略を導入する際に最大の障害となっているものについて、顧客に優先順位付けをしてもらいました。3 一番の課題は、膨大なデータセットを格納するデータストレージの不足でした。これに次いで、コンピューティングに必要な電力の不足、データストレージのための十分なスペース不足が課題となりました。
これらの課題に対し、ソリダイムは世界最高容量のPCIe SSD、122.88TBのソリダイム™ D5-P5336を発表しました。比類のないドライブ容量、電力効率、データ密度を提供するこのドライブは、AI駆動型のNASを導入する際のゲームチェンジャーとなるでしょう。主な特徴は以下の通りです。
これらの特性は、AIデータパイプラインの要件、特に、大容量、耐久性、効率性の高いストレージが最も重要な取り込みおよびアーカイブ段階に最適です。
D5-P5336は、AIデータパイプラインの取り込み段階とアーカイブ段階において、各固有の課題に対応しカスタマイズされたメリットを提供します。
これらの段階で最適化させていくことで、大容量SSDはAIデータパイプラインの全体的な効率を向上させ、データアクセス高速化、運用コストの削減、将来のストレージ増設に対応するスケーラビリティを実現します。
AIがデータストレージの限界を押し広げる中、大容量SSDを搭載したNASシステムは、AIデータセットの量、速度、多様性を管理するために不可欠なものとなっています。122.88TBのソリダイム D5-P5336 SSDは、ストレージ技術における飛躍的な進歩を体現し、NAS導入において比類なき容量、耐久性、効率性を実現します。
AIデータパイプラインの段階にデータを集約させていくことで、ソリダイムD5-P5336 は、組織がデータの潜在能力を最大限に活用し、より多くのデータだけでなく、より多様なデータを用いてモデルのパフォーマンス向上を実現していきます。AIのワークロードが進化するにつれて、NASと大容量SSDの組み合わせは、スケーラブルで効率的な高性能データインフラの要となり続けるでしょう。
Dave Sierra は、Solidigm の製品マーケティングアナリストとして、今日のデータセンターが直面するインフラの効率化という課題の解決に取り組んでいます。
1 出典 - Epoch.AI、https://epoch.ai/data/notable-ai-models#Documentation
2 平均トークンサイズが5文字の場合、平均タイピング速度が60wpmであると想定
3 出典:デジタルの実態、グローバルデータ・インサイト調査、2024年8月
4 4Kビデオのビットレート25Mbps、および、H.265/HEVC圧縮を基準として、1ゲームあたりのファイルサイズを30GBと仮定。NFLの試合の平均時間3時間、1シーズン272試合、に基づく。
5 出典 – ソリダイム。一部の結果はソリダイム社内の分析、アーキテクチャーシミュレーション、モデリングを使用して評価またはシミュレートされたものであり、情報提供のみを目的としています。システムのハードウェア、ソフトウェア、構成などの違いにより、実際の性能は掲載された性能テストや評価とは異なる場合があります。
6 出典 - ソリダイム。42UのNASラックを基準とし、36Uのストレージ容量を確保。18台の2Uストレージサーバーを配置し、各サーバーには24台の122.88TB SSDを搭載。
本資料に記載した内容はすべて、明示されているか否かにかかわらず、いかなる保証も行うものではありません。ここにいう保証には、商品適格性、特定目的への適合性、および非侵害性の黙示の保証、ならびに履行の過程、取引の過程、または取引での使用から生じるあらゆる保証を含みますが、これらに限定されるわけではありません。
本書で説明されている製品には、「エラッタ」と呼ばれる設計上の不具合が含まれている可能性があり、公表されている仕様とは異なる動作をする場合があります。現在確認済みのエラッタについては、Solidigmまでお問い合わせください。
Solidigmは、サードパーティーのデータについて管理や監査を行っていません。ほかの情報も参考にしてデータの正確さを評価してください。
製品をご注文される前に最新の仕様をご希望の場合は、Solidigmの担当者または販売代理店にお問い合わせください。
SOLIDIGMおよびSolidigmの 「S」のロゴは、SK hynix NAND Product Solutions Corp. (d/b/a Solidigm) の米国、中国、日本、シンガポール、欧州連合、英国、メキシコ、およびその他の国々における登録商標です。