エンタープライズITは、複数の相反する要求を調整する必要があります。現在と将来のアプリケーション要件に加え、CapExとOpExの双方に関わるインフラコスト、さらに電力、冷却とスペースといった制約も考慮する必要があります。そして、もちろん、事業を継続することも不可欠です。
新規構築でない限り、ほとんどのエンタープライズデータセンターでは、ハイブリッド(SSD+HDD)ストレージアレイを使用しています。しかし、もう一つの選択肢があります。それが、オールフラッシュストレージアレイ(AFA)です。AFAは、SSDだけ構成されるストレージで、特に、AI活用において、複数の側面でエンタープライズ企業に大きなメリットをもたらす可能性があります。多くの先進的なIT部門は、既にAFAストレージを採用しており、残る多くの企業も、AIデータ要件を支えためにAFAの導入を検討し始めています。
AIは、新たなビジネスの進め方をもたらし、重要な業務プロセスをより高度に支援する方法を提供します。しかし、AIを導入するIT部門が直面する課題も多いです。すなわち、高価な新しいコンピュート基盤、電力と冷却インフラと、AIアプリケーションそのものへの投資が必要となります AIインフラはコストが高いので、いかに高い稼働率で活用し続けるかが重要な関心事となります。十分なI/O性能は、AIインフラを有効に稼働させるための重要な要素の一つです。
ただし、企業にとってAIアプリケーションの真の価値は、トレーニングか推論そのものにあるのではなく、それによって企業が実現できる成果にあります。例:
上記のAIの補助的処理か後続的処理は、いずれもハイブリッドストレージ上で動作させることは可能ですが、I/O負荷が増大するにつれて、ハイブリッドシステムでは性能が低下し始めます。つまり、I/O需要が高まると、ハイブリッドストレージは処理速度が低下し始めることがよくあります。
ハイブリッドストレージにおけるI/O性能問題は、その基本的なアーキテクチャに起因しています。本質的に、上記のシステムは、ホットデータ(頻繁にアクセスされるデータ)をSSDに配置し、コールドデータ(アクセス頻度の低いデータ)をHDDに配置することで、データ配置を最適化しようとします。この仕組みは、アクセス特性によって容易に分類できるデータに対しては有効に機能する場合がありますが、アクセス特性を簡単に分類できないデータか、データアクセス行動が増加した場合には、HDDとSSDの間でデータを頻繁に移動させる必要が生じ、いわゆるスラッシングが生じやすくなります。スラッシングは、システムがアプリケーションI/Oに全リソースを集中すべきタイミングで、ハイブリッドシステムの負荷をさらに増大させてしまいます。
なお、ハイブリッドストレージベンダー各社は、このような余分なデータ移動を削減し、抑制するために、さまざまなデータ配置最適化手法を採用しています。しかし、最終的には、コールドデータにアクセスする必要が生じた場合、そのデータはSSDに移動するか、HDDから直接読み出すしかありません。ホットデータへのアクセスがなくなると、新たなホットデータのための空きを確保するために、そのデータをHDDへ戻す必要が生じます。
一方で、AFAシステムは、高いI/O負荷がかかった状況においても、ハイブリッドアレイのような大規模なデータ移動も、性能問題もがほとんど発生しません。これは、しばらくアクセスされていなかったデータ、より低速な階層ストレージに退避させる必要も、そこから取り出す必要も一切ないためです。ハイブリッドシステムで見られるI/Oレイテンシと性能のばらつきは、システムの高度さに関係なく、AFAストレージでは、はるかに小さく抑えられます。その結果、AFAシステムは、アクセス状況に左右されることなく、安定した高いI/O性能を提供します。
AFAシステムでは、使用済みページを解放するために、SSD固有のデータ移動が書き込み時に発生するほか、仮想化機構が備わっていて、デバイス内部でデータを保管した場合に、データ配置を管理しています。しかし、こうした内部移動と仮想化処理は、読み取りI/Oにはほとんどオーバーヘッドを与えず、書き込みに対してもごくわずかな影響にとどまります。また、データ移動はデバイス内部での一方向の移動に限定されます。データは、間もなく解放されるページから新しいページに移動するだけであり、ガーベジコレクション中にデータが元の場所に戻されることはありません。
以前のブログ記事The Incredible Power of Power Efficient Storage では、Solidigm QLC SSDが、AIのトレーニングと推論向けデータレイクにおいて、オールHDD構成と比べて設置スペースと消費電力を大幅に削減できることを詳しく解説しました。ここでその要点だけをまとめると、Solidigm 61.44TB QLC SSD を利用する場合、AI向けに1PBのデータを支えるために必要となるリソースは、オールHDD構成と比べて次のとおり少なくなります。ドライブ数(SSD 521対 HDD 1,800)、電力(22.2kW削減)、ラックスペース(約60RU削減)。
さらに、ハイブリッドデータストレージとオールフラッシュストレージを比較すると、優位性は、性能、設置スペース、電力、冷却だけに留まりません。例えば、SSDの信頼性は、HDDストレージよりもはるかに高くなっています コンシューマー向けストレージでも、SSDは、HDDに比べて少なくとも3割以上高い信頼性を持っています。
さらに、エンタープライズクラスのSolidigm SSDは、一般的なSSD業界標準をはるかに上回る仕様でテストされており、その信頼性は一段と高くなります。実際、Solidigm SSDでは、35億年分を超えるシミュレーション上の運用期間において、1件のデータ破損事態も検出していません。1
AFAとハイブリッドのいずれのシステムでも、修理と保守はメンテナン費用でカバーされているとはいえ、信頼性の向上は、企業にどのような価値をもたらすのでしょうか? ハイブリッドシステム対AFAシステムのメンテナンス費用を直接比較することは、多くの要因が絡むため容易ではありません。しかし、一般論として、故障率が高いシステムほど、交換用在庫の確保とサービスコールの増加が必要になるため、コストは高くなります。また、HDDが故障した場合のストレージシステムの性能低下は、SSDが故障した場合と比べて大きくなります。2
この差が顕著に現れる例の一つが、イレージャーコーディングによるデータ保護を採用したシステムです。RAIDストライプ内のSSDかHDDのドライブが故障すると、失われたデータを再構築するために、ストライプ内の他のすべてのドライブを読み出さなければなりません。この再構築処理には、ドライブの速度と容量によっては、長時間を要する場合があります。SSDの帯域幅は、HDDの約10~25倍に達します。また、I/Oレイテンシについても、SSDはマイクロ秒レベルであるのに対し、HDDはミリ秒レベルであり、SSDはHDDより最大で約1,000倍高速にI/O処理を実行します。そのため、同等の容量のドライブであれば、SSDのほうがHDDよりも再構築時間は大幅に短くなる傾向にあります。
再構築作業中は、ストレージシステムは高い負荷状態となり、完全な性能状態に戻るまでの時間がさらに延びます。このことからわかるように、ハイブリッド構成でHDDが故障した場合で、導入から3年を超えるとHDDの故障率がSSDより高くなることを考慮すると、3リ再構築中の性能低下はより深刻になります。したがって、AFAでSSDが故障した場合も、同様に一時的な後退は生じるものの、SSDの圧倒的に高速な性能と高い帯域幅により、再構築時間ははるかに短くなります。
歴史を踏まえると、ハイブリッドアレイが優位性を維持してきたとは言い難いです。ハイブリッドアレイは、データセンターで何十年にもわたり使用されてきましたが、エンタープライズディスクの出荷数は10年以上前にピークを迎えています。
HDDの出荷台数の減少は鈍化しつつある、という見方もあります。しかし、それは全体像を捉えたものではありません。エンタープライズHDDの台数ベースの出荷は減少しており、4現在も高い数量で出荷されているHDDは、低速なオブジェクトストレージで用いられるニアラインディスクだけです。そして、エンタープライズディスクの出荷が急激に減少し始めたまさにその頃から、SSDの出荷量は増加に転じました。
要約すると、エンタープライズAI活動においては、AFAのオールSSDストレージを使用することは、ハイブリッドアレイと比べて、多くの利点があります。上記の利点には、必要な場面における高く安定したI/O性能、より高い信頼性、低い消費電力、冷却負荷の低減と、小さなフットプリントなどが挙げられます。
さらに、エンタープライズHDD出荷量の減少対SSD出荷量の増加は、ハイブリッドストレージの時代が限界に近づいていることと、オールフラッシュストレージシステムが、エンタープライズAIワークロードその他の同様にI/O集約型のワークロードにおける、新たな主要なストレージソリューションとなったことを示す、もう一つの明確な証拠です。
Ace Strykerは、Solidigmの市場開発ディレクターとして、AIワークロードおよびソリューションに関する専門知識を活かし、同社のデータセンターストレージソリューションポートフォリオの新たな応用先を開拓しています。