AIはハイブリッドからオールフラッシュへの移行を加速

エンタープライズITは、複数の相反する要求を調整する必要があります。現在と将来のアプリケーション要件に加え、CapExとOpExの双方に関わるインフラコスト、さらに電力、冷却とスペースといった制約も考慮する必要があります。そして、もちろん、事業を継続することも不可欠です。 

新規構築でない限り、ほとんどのエンタープライズデータセンターでは、ハイブリッド(SSD+HDD)ストレージアレイを使用しています。しかし、もう一つの選択肢があります。それが、オールフラッシュストレージアレイ(AFA)です。AFAは、SSDだけ構成されるストレージで、特に、AI活用において、複数の側面でエンタープライズ企業に大きなメリットをもたらす可能性があります。多くの先進的なIT部門は、既にAFAストレージを採用しており、残る多くの企業も、AIデータ要件を支えためにAFAの導入を検討し始めています。

AIは、新たなビジネスの進め方をもたらし、重要な業務プロセスをより高度に支援する方法を提供します。しかし、AIを導入するIT部門が直面する課題も多いです。すなわち、高価な新しいコンピュート基盤、電力と冷却インフラと、AIアプリケーションそのものへの投資が必要となります AIインフラはコストが高いので、いかに高い稼働率で活用し続けるかが重要な関心事となります。十分なI/O性能は、AIインフラを有効に稼働させるための重要な要素の一つです。

ただし、企業にとってAIアプリケーションの真の価値は、トレーニングか推論そのものにあるのではなく、それによって企業が実現できる成果にあります。例:

  • レコメンデーションエンジンは、有効なソリューションですが、その真の価値は、顧客が実際にレコメンデーションをクリックした瞬間に生まれます。そのクリックを起点として、追加の売上を生み出すために、残りのITインフラ全体が一斉に動き出します。これは単発の取引でも、一回限りの取引でもありません。小売業界では、毎年ブラックフライデーとクリスマス商戦が始まるたびに、顧客のWeb行動によって発生する膨大な販売活動に耐えられるかどうか、業界全体が固唾をのんで見守ることになります。 
  • ビジョンシステムは、シーン内の物体か人物を識別し、追跡する点で非常に優れています。しかし、その機能を使って、顧客行動を追跡するか、不具合を診断するか、不良部品を特定することは、物語の半分に過ぎません。その情報で企業が行動するには、追加のインフラ上で稼働するアプリケーションが必要となります。ここにこそ、物体追跡と人物追跡がもたらす真のビジネス価値が存在します。
  • LLMは印象的な新技術ですが、企業向けにパーソナライズし、ハルシネーションを低減するため、多くの組織では、ベクターデータベースと検索拡張生成(RAG)システムを組み合わせて利用しています。RAGは、企業データを取り込み、エンコード、埋め込みやベクトル化を行い、それをベクターデータベースにロードして、インデックス化した上でクエリを実行することで、入力されたプロンプトに企業固有の文脈情報を付加します。ベクターデータベースへのロード、インデックス作成、アクセス処理は、いずれもI/Oが牽引する負荷の極めて高いワークロードです。プロンプトの実行頻度と新しい情報の取り込み速度によっては、上記の処理は大量のI/Oリソースを消費する可能性があります。 

上記のAIの補助的処理か後続的処理は、いずれもハイブリッドストレージ上で動作させることは可能ですが、I/O負荷が増大するにつれて、ハイブリッドシステムでは性能が低下し始めます。つまり、I/O需要が高まると、ハイブリッドストレージは処理速度が低下し始めることがよくあります。 

ハイブリッドストレージにおけるI/O性能問題は、その基本的なアーキテクチャに起因しています。本質的に、上記のシステムは、ホットデータ(頻繁にアクセスされるデータ)をSSDに配置し、コールドデータ(アクセス頻度の低いデータ)をHDDに配置することで、データ配置を最適化しようとします。この仕組みは、アクセス特性によって容易に分類できるデータに対しては有効に機能する場合がありますが、アクセス特性を簡単に分類できないデータか、データアクセス行動が増加した場合には、HDDとSSDの間でデータを頻繁に移動させる必要が生じ、いわゆるスラッシングが生じやすくなります。スラッシングは、システムがアプリケーションI/Oに全リソースを集中すべきタイミングで、ハイブリッドシステムの負荷をさらに増大させてしまいます。 

データ配置は、ハイブリッド対AFAストレージにおける重要な差別化要因です

なお、ハイブリッドストレージベンダー各社は、このような余分なデータ移動を削減し、抑制するために、さまざまなデータ配置最適化手法を採用しています。しかし、最終的には、コールドデータにアクセスする必要が生じた場合、そのデータはSSDに移動するか、HDDから直接読み出すしかありません。ホットデータへのアクセスがなくなると、新たなホットデータのための空きを確保するために、そのデータをHDDへ戻す必要が生じます。 

一方で、AFAシステムは、高いI/O負荷がかかった状況においても、ハイブリッドアレイのような大規模なデータ移動も、性能問題もがほとんど発生しません。これは、しばらくアクセスされていなかったデータ、より低速な階層ストレージに退避させる必要も、そこから取り出す必要も一切ないためです。ハイブリッドシステムで見られるI/Oレイテンシと性能のばらつきは、システムの高度さに関係なく、AFAストレージでは、はるかに小さく抑えられます。その結果、AFAシステムは、アクセス状況に左右されることなく、安定した高いI/O性能を提供します。

AFAシステムでは、使用済みページを解放するために、SSD固有のデータ移動が書き込み時に発生するほか、仮想化機構が備わっていて、デバイス内部でデータを保管した場合に、データ配置を管理しています。しかし、こうした内部移動と仮想化処理は、読み取りI/Oにはほとんどオーバーヘッドを与えず、書き込みに対してもごくわずかな影響にとどまります。また、データ移動はデバイス内部での一方向の移動に限定されます。データは、間もなく解放されるページから新しいページに移動するだけであり、ガーベジコレクション中にデータが元の場所に戻されることはありません。

AFAの優位性

以前のブログ記事The Incredible Power of Power Efficient Storage では、Solidigm QLC SSDが、AIのトレーニングと推論向けデータレイクにおいて、オールHDD構成と比べて設置スペースと消費電力を大幅に削減できることを詳しく解説しました。ここでその要点だけをまとめると、Solidigm 61.44TB QLC SSD を利用する場合、AI向けに1PBのデータを支えるために必要となるリソースは、オールHDD構成と比べて次のとおり少なくなります。ドライブ数(SSD 521対 HDD 1,800)、電力(22.2kW削減)、ラックスペース(約60RU削減)。 

さらに、ハイブリッドデータストレージとオールフラッシュストレージを比較すると、優位性は、性能、設置スペース、電力、冷却だけに留まりません。例えば、SSDの信頼性は、HDDストレージよりもはるかに高くなっています コンシューマー向けストレージでも、SSDは、HDDに比べて少なくとも3割以上高い信頼性を持っています。 

さらに、エンタープライズクラスのSolidigm SSDは、一般的なSSD業界標準をはるかに上回る仕様でテストされており、その信頼性は一段と高くなります。実際、Solidigm SSDでは、35億年分を超えるシミュレーション上の運用期間において、1件のデータ破損事態も検出していません。1

AFAとハイブリッドのいずれのシステムでも、修理と保守はメンテナン費用でカバーされているとはいえ、信頼性の向上は、企業にどのような価値をもたらすのでしょうか? ハイブリッドシステム対AFAシステムのメンテナンス費用を直接比較することは、多くの要因が絡むため容易ではありません。しかし、一般論として、故障率が高いシステムほど、交換用在庫の確保とサービスコールの増加が必要になるため、コストは高くなります。また、HDDが故障した場合のストレージシステムの性能低下は、SSDが故障した場合と比べて大きくなります。2

この差が顕著に現れる例の一つが、イレージャーコーディングによるデータ保護を採用したシステムです。RAIDストライプ内のSSDかHDDのドライブが故障すると、失われたデータを再構築するために、ストライプ内の他のすべてのドライブを読み出さなければなりません。この再構築処理には、ドライブの速度と容量によっては、長時間を要する場合があります。SSDの帯域幅は、HDDの約10~25倍に達します。また、I/Oレイテンシについても、SSDはマイクロ秒レベルであるのに対し、HDDはミリ秒レベルであり、SSDはHDDより最大で約1,000倍高速にI/O処理を実行します。そのため、同等の容量のドライブであれば、SSDのほうがHDDよりも再構築時間は大幅に短くなる傾向にあります。 

再構築作業中は、ストレージシステムは高い負荷状態となり、完全な性能状態に戻るまでの時間がさらに延びます。このことからわかるように、ハイブリッド構成でHDDが故障した場合で、導入から3年を超えるとHDDの故障率がSSDより高くなることを考慮すると、3リ再構築中の性能低下はより深刻になります。したがって、AFAでSSDが故障した場合も、同様に一時的な後退は生じるものの、SSDの圧倒的に高速な性能と高い帯域幅により、再構築時間ははるかに短くなります。 

オールフラッシュはストレージの未来

歴史を踏まえると、ハイブリッドアレイが優位性を維持してきたとは言い難いです。ハイブリッドアレイは、データセンターで何十年にもわたり使用されてきましたが、エンタープライズディスクの出荷数は10年以上前にピークを迎えています。 

HDDの出荷台数の減少は鈍化しつつある、という見方もあります。しかし、それは全体像を捉えたものではありません。エンタープライズHDDの台数ベースの出荷は減少しており、4現在も高い数量で出荷されているHDDは、低速なオブジェクトストレージで用いられるニアラインディスクだけです。そして、エンタープライズディスクの出荷が急激に減少し始めたまさにその頃から、SSDの出荷量は増加に転じました。 

要約すると、エンタープライズAI活動においては、AFAのオールSSDストレージを使用することは、ハイブリッドアレイと比べて、多くの利点があります。上記の利点には、必要な場面における高く安定したI/O性能、より高い信頼性、低い消費電力、冷却負荷の低減と、小さなフットプリントなどが挙げられます。 

さらに、エンタープライズHDD出荷量の減少対SSD出荷量の増加は、ハイブリッドストレージの時代が限界に近づいていることと、オールフラッシュストレージシステムが、エンタープライズAIワークロードその他の同様にI/O集約型のワークロードにおける、新たな主要なストレージソリューションとなったことを示す、もう一つの明確な証拠です。 


著者紹介

Ace Strykerは、Solidigmの市場開発ディレクターとして、AIワークロードおよびソリューションに関する専門知識を活かし、同社のデータセンターストレージソリューションポートフォリオの新たな応用先を開拓しています。

  1. 出典:Solidigm ロスアラモス研究所において実施されたソフトエラー率試験(1TB/日)
  2. https://www.microsoft.com/en-us/research/wp-content/uploads/2016/08/a7-narayanan.pdf
  3. https://www.backblaze.com/blog/how-reliable-are-ssds/
  4. https://www.statista.com/statistics/285474/hdds-and-ssds-in-pcs-global-shipments-2012-2017/