Kingsoft CloudとソリダイムがAIワークロード向けの革新的なオブジェクト・ストレージ・ソリューションを共同設計

Kingsoft Cloudは、中国を拠点とする数十億ドル規模の独立系クラウド・サービス・プロバイダーです。1 安全性と信頼性が高い分散型クラウド・ストレージ・サービスを提供し、大容量ストレージを低コストで利用できるようにしています。

TDB
TDB

世界は変わり、AI革命は限界を押し広げ、ストレージ・アーキテクチャーにはこれまでなかったような要件が求められるようになっています。Kingsoftは、クラウド・ストレージ・プラットフォーム向けのKingsoft Cloudや、WPS Officeなどのオフィス・ソフトウェア向けのWPSをはじめとする、包括的なクラウド・コンピューティング・サービスを開発し、長年にわたり業界をリードしてきました。Kingsoft CloudはKS3 Extremeと名付けられた最新のオブジェクト・ストレージ・ソリューションにソリダイムのSSDを採用しました。KS3 Extreme Speedの新しい帯域幅は、データボリュームに基づいて動的に拡張します。 SSDの容量が大きいほど、システムが提供できる帯域幅も増大します。 要求の厳しい今日のワークロードに対応するために、WPS OfficeをはじめとするKingsoftの顧客企業は、より高速に自社アプリケーションにアクセスできることを求めています。

こうしたニーズに応えるために、Kingsoftはパフォーマンスと容量の両面でストレージ・アーキテクチャーの拡張を図りました。KingsoftはHDDをソリダイムのSSDに置き換えることで、帯域幅を100倍以上拡大し、1ペタバイト容量当たり1テラビット/秒 (Tbps) を超える速度を実現しました。2 これは、AI生成コンテンツ (AIGC)、アニメーションのレンダリング処理、ハイパフォーマンス・コンピューティング (HPC) などのワークロードにとって大きなメリットになります。

ソリダイムが提供する幅広いSSD製品ポートフォリオは、AIなどの要求の厳しいアプリケーション向けのアーキテクチャーを最適化するのに役立ちます。現在ではパフォーマンス、コスト、効率性の適切なバランスを提供できるようになりました。
Kingsoftオブジェクト・ストレージ・ソリューションのシニア輸出担当、ホンシン・ガン氏
Kingsoft Cloud KS3 Extreme Speedと標準的なオブジェクト・ストレージ、PL1、PL2の比較。

図 1. Kingsoft Cloudストレージ・アーキテクチャーの進化

Kingsoft Cloud KS3 Extreme Speedのメリット

  • KS3 Extreme Speedは、ストレージ容量ごとに3つのパフォーマンス・レベルを展開。PL1は1ペタバイト当たり200Gbps、PL2は1ペタバイト当たり500Gbps、PL3は1ペタバイト当たり1Tbpsの最大パフォーマンスを提供します。
  • KS3 Extreme Speedでは、ガベージ・コレクション・メカニズムを再設計した結果、ゼロコストで未使用領域の解放が可能になり、SSDパフォーマンスのさらなる向上と耐用年数の延長を実現しました。
  • KS3では、プロセスの大幅な高速化と効率化を図り、スレッド・スケジューリングを飛躍的に改善しました。内部のスケジューリング・モジュールを最適化することで、処理に時間がかかるタスクによって要求がブロックされるのを防ぎ、その結果として応答時間を大幅に短縮しています。

図1は、Kingsoftの以前のアーキテクチャーと新しいアーキテクチャーを比較したものです。以前の設計では、AIのような負荷が集中するアプリケーションに必要な高スループットをサポートできなかったため、S3サービスよりも前にファイル・システム・キャッシュが配置されていました。Kingsoftが必要としていたのは、ボトルネックを解消する方法を備えた新しく効率的なアーキテクチャーです。新しいオールフラッシュ設計では、オブジェクトの寿命はS3内に設定されているため、Kingsoftのクライアントはオブジェクト・ストレージを直接S3に接続することができます。容量、パフォーマンス、コストのバランスが取れた新しい設計です。

Kingsoft Cloud S3とKingsoft Cloud KS3 Extreme Speedのサーバー設計の比較。

図2. Kingsoft Cloud S3とKS3 Extreme Speedの比較

ビジネス面での課題

今日のAIワークロードでは、使用するデータセットが大容量になり、作成するモデルも大規模になっています。AIの導入と管理を簡単にするため、KingsoftはさまざまなAIワークロードに対応できる、すぐに使えるソリューションを開発しました。

特定のAIインスタンスでの、大規模モデルの学習処理には、高いI/Oスループットが不可欠です。AIモデルの効率的な学習処理を行うシステムでは、膨大な量のデータ処理やさまざまな演算をリアルタイムで実行するため、IOPS(1秒当たりの入出力操作数)の高い、可能な限り高速のストレージが欠かせません。

1,750億パラメーターのデータモデルを例として、学習データの容量を40TBと想定すると、1ペタバイト当たり20Gbpsのスループット容量を持つ標準的なオブジェクト・ストレージを使用した場合、すべての学習データの読み込みには最短でも535分かかります。

1ペタバイト当たり1Tbpsのスループット容量を誇るKS3 Extreme Speed Object Storageを使用すれば、すべてのデータの読み込みはわずか11分で完了します。3 48.6倍高速化できることになります。これはほんの一例で、その他にも以下のようなメリットが挙げられます。

  • 高性能の柔軟なスケーリングに対する需要: データセンターでは、低レイテンシーのデータアクセスを必要とする、学習処理やディープラーニングといった大量の小規模ファイルを処理するアプリケーションに対応できる、高いIOPS要件を満たさなければなりません。これはデータの急増に関連する複雑さとパフォーマンスの問題を解決するために必要な、高いIOPS、並列性、信頼性、柔軟性、拡張性を集約した、全体的なストレージシステムに対する需要を示しています。
  • データのライフサイクル管理に求められる要件: 典型的なAI学習処理ワークフローを例にすると、データ収集、データ・クリーニング、タグ付けプロセスでは、画像やテキストなどの膨大な量の非構造化データの処理が必要です。これらのタイプのデータには、十分なストレージの空き容量とシーケンシャル・リード / ライトの高並列アクセスが必要とされ、コストが高くなる傾向にあります。
  • 障害が起きても速度低下なし: KS3 Extreme Speedならば、単一のマシンに障害が発生した場合でも、システム運用の課題に適切に対処できます。これは、ハードウェア障害の影響を抑え、システムを障害発生前と同じ速度で稼動できるようにする、ハードウェア障害に対処する主要な4つのトラブルシューティング・システムが実装されているからです。

適切なストレージとしてソリダイムのSSDが選ばれた理由

AIなどの新しいサービスによってデータが逼迫し、Kingsoft Cloudのハードウェアは常に最新の状態に保つことが要求されています。KingsoftはストレージI/Oパフォーマンスを向上させるために元々採用していたソリューションでSATA SSDをSATA HDDへと置き換えることが妥当であると判断しましたが、綿密に調査したところ、この置き換えはコスト効率が高くもなければ、効率的なストレージであるわけでもないと判明しました。代わりにTLC NVMe SSDへと完全に移行することで、KingsoftはI/Oパフォーマンス要件を満たすことができました。

ところがソリダイムのチームが追加調査を実施した結果、KingsoftはQLC SSDがさらに有効なソリューションであると分かりました。ソリダイムのQLC SSDはTLCよりもセル当たりのビット数が33%多く、3x8ストレージに集約できるため、総運用コストの削減につながります。ソリダイムが提供するQLC SSDは容量が7.68TB ~ 60.72TBと幅広いうえに、TLC SSDと同等の耐久性と性能を備えています。

「ソリダイムとの複数回にわたる綿密な打ち合わせの結果、両社ともお互いのシステム特性を把握し、オールフラッシュ・ストレージの価値をより深く理解しました。現在ではウェブ・アプリケーション・ファイアウォール (WAF) を削減し、全体的なスループットと安定性を向上させることが可能になりました」とホンシン・ガン氏は述べています。

Kingsoft Cloudとソリダイムの連携は有意義な成果をもたらしました。ソリダイムのTLC SSDとQLC SSDはいずれもKingsoftのオブジェクト・ストレージ・サービスの機能を向上させ、運用コストの削減につながることが証明されています。さらにソリダイムは、顧客サポートチームとともにKingsoftにより効果的かつ全面的なサポートを提供し、品質と信頼性をワンランク上へと引き上げました。

ホンシン・ガン氏は最後に「Kingsoft Cloudは今後も、ソリダイムのQLCテクノロジーの開発と調和しながら、オールフラッシュ・メディアをベースに技術力と製品力を引き続き強化し、コストに焦点を当て高性能でコスト効率の高いオブジェクト・ストレージ製品を生み出し、さまざまな一般のユーザーに価値の高いサービスを提供していきます」と締めくくりました。


著者紹介 

ソリダイムの製品マーケティング・マネージャーを務めるジェニース・ウノロフスキーは、データセンター・ストレージ・ソリューションの分野で14年以上の経験を持っています。インテル コーポレーションのテクニカル・マーケティング部門でキャリアをスタートし、ソリダイム入社後は多種多様な企業とパートナーとともに、データセンターSSDイノベーションの推進に携わっています。仕事以外にも、子どもたちと過ごす時間や柔術のトレーニング、アウトドアの探索を楽しんでいます。 ウェイン・ガオは、ストレージ・ソリューション・アーキテクトとして主席エンジニアの任務に就き、PFやAlibabaの商用リリースを含め、CSALを担当してきました。以前はDell EMC ECSのオールフラッシュ・オブジェクト・ストレージ部門の一員として20年以上のストレージ開発経験を積み、米国では4件の特許を出願中 / 取得であり、EuroSysでは論文を1本公開しています。

[1] https://www.macrotrends.net/stocks/charts/KC/kingsoft-cloud-holdings/total-assets

[2] https://mp.weixin.qq.com/

[3] https://mp.weixin.qq.com/