Baidu ABC Storage: オブジェクト・ストレージの再定義

Baidu ABC Storage は、インテル® Optane™ SSD とインテル® QLC 3D NAND SSD テクノロジーを活用し、パフォーマンスと容量を向上させます。


概要

  • Baidu AI Cloud* は、IT およびインターネット業界をリードする企業です。
  • インテルとのパートナーシップにより、Baidu AI Cloud は、SSD とインテル® Optane™ テクノロジーおよびインテル® QLC テクノロジーを組み合わせて、ABC (AI、ビッグデータ、クラウド) ストレージのオールフラッシュ・オブジェクト・ストレージ・ソリューションの中核をなすハードウェアとして採用しました。

人工知能 (AI) トレーニング、ビッグデータ処理、ハイパフォーマンス・コンピューティング (HPC) などの高度なテクノロジーが、プライベート・クラウド・ストレージ・サービス開発の方向性を決めています。また、特に膨大な数の小さな非構造化ファイル向けの高性能ストレージ・システムの分野では、企業のニーズと大容量データ向けのストレージシステムが緊密に結びついています。

Baidu AI Cloud* は、IT およびインターネット業界を主導する企業としてパブリック・クラウド・ストレージ・テクノロジーにおける長年の経験をプライベート・クラウド・ストレージ・ソリューションに活かし、ABC (AI、ビッグデータ、クラウド) 戦略の最重要な要素として位置づけました。インテルとのパートナーシップにより、Baidu AI Cloud は SSD とインテル® Optane™ テクノロジーおよびインテル® QLC テクノロジーの組み合わせをABC ストレージのオールフラッシュ・オブジェクト・ストレージ・ソリューションの中核をなすハードウェアとして採用しました。

「Baidu AI Cloud は、高性能のオールフラッシュ・オブジェクト・ストレージ・ソリューションが、大量の小さな非構造化ファイルにより提起された課題にプライベート・クラウド・ユーザーが取り組む助けとなることを期待しています。インテル® QLC 3D NAND テクノロジーをベースにしたインテル® Optane™ ソリッドステート・ドライブ (SSD) とインテル® SSD を組み合わせることで、当社のソリューションは、安定性と入出力操作毎秒 (IOPS) において最適な結果を提供しました。」
Baidu AI Cloud ABC ストレージ・チーム

データの増大 - 機会と課題

世界のデータ量は、2025年までに 163ZB (ゼタバイト) にまで膨れ上がると予想されています。1 大容量のデータ、特に非構造化データの爆発的な増大は、企業データのデジタル化と関連 IT テクノロジーの継続的進化を促進する要因となりました。このデータの量は、コンピューター・ビジョン、音声認識、金融リスク管理などのテクノロジーに画期的な進歩をもたらすことが期待されています。このため、大容量データの効率的な管理、処理、利用は、業界における優位性を維持したい企業にとって重要な競争分野となりました。

しかし、大量の非構造化データの保存に従来型のストレージ・システムを利用する場合、ファイルのサイズと数、インデックス作成、アクセスのパターン、旧式のストレージ・テクノロジー (例えば回転ドライブ) といった要因から課題が発生します。さらに、ブロックストレージやファイルストレージ・システムは小容量ファイルの保管には向いていない上、AI やほかの新しいアプリケーションでは、読み出し / 書き込みパフォーマンスの点でより高度な条件がストレージシステムに要求されます。こうしたことは、興味深い技術的課題を提示します。

ファイルのサイズと数 — 従来型のファイル・ストレージ・システムのパフォーマンスは、不安定な傾向があり、ファイル数の急増とともに低下します。画像認識などの AI トレーニングのシナリオでは、トレーニングのデータセットには通常、サイズの小さい、驚くべき数のファイルが含まれます。同様に、メディア資産管理 (MAM)、無人車両、ビデオサービスなど、頻繁に利用されるインターネット・アプリケーションでは、システムで保管、処理されるファイルの数は、通常数億件に達します。このファイル数の急増は、特にネットワーク接続ストレージ (NAS) システムなどの従来型のファイルストレージにおいて、ストレージシステムの IOPS パフォーマンスの低下と不安定化を招きます。

インデックス作成 — さらに、現在のファイル・ストレージ・システムは、ハッシュツリーや B+ ツリー・コンピューティング手法を利用してディレクトリーの管理とインデックス作成を行います。ディレクトリーの管理とインデックス作成に利用されるアルゴリズムは、1 億以上のファイルを含むディレクトリーから取得する場合、効率とパフォーマンスが大幅に低下する傾向があります。

アクセス — 特定のアプリケーションのシナリオでは「1 回読み出し、複数回書き込み」または「読み出し / 書き込み混在」アクセスモードがパフォーマンス面での課題をさらに悪化させます。一般的なファイル I/O のプロセスは、「開く」、「検索」、「読み出し / 書き込み」、「閉じる」の操作で構成されます。最もシステム時間とリソースを消費するのが、「読み出し」または「書き込み」の前の「開く」の操作です。「読み出し / 書き込み混在」アクセスモードで処理する際、システムは繰り返し「開く」操作を実行します。膨大な平行処理が発生した場合、大量のシステムリソースが浪費され、パフォーマンスの損失につながります。

HDD — 従来の HDD における、IOPS とランダムな読み出し / 書き込みパフォーマンの弱点は、ストレージシステムのパフォーマンス向上を妨げてきました。機械的な限界があるため、高性能 HDD においてもランダムな読み出し / 書き込みパフォーマンスの IOPS の数値は数百にしかなりません。2 小さなファイルを処理する際は、HDD は異なるストレージの位置でファイルの検索と発見を継続しなければならないためにその効率はいっそう低下します。

Baidu ABC Storage の高性能オールフラッシュ・ストレージ・ソリューション

Baidu は、検索テクノロジーの分野における業績で、広く認知されるようになりました。1,000 億を超えるページ数、2,000 ペタバイト (PB) の保管データ、100 ペタバイトの 1 日当たりのデータ処理量により、3 Baidu は、膨大な数の小さな非構造化ファイルを保管する際に発生する技術的課題について精通しています。

Baidu AI Cloud は、ソフトウェアの改善とインテル製品搭載ハードウェアの強化により、上記の課題に取り組むことを目指してきました。

baidu-article-node-specs-flowchart.jpeg

ソフトウェア

Baidu の高性能なオブジェクト・ストレージ・エンジンを新しいソリューションに取り入れることで、優れたデータ・ライフサイクル管理、データ保護戦略、取得の効率性、InfiniBand* Architecture ネットワークと RDMA サポート、柔軟な権利管理メカニズムの提供が可能になりました。さらに、オブジェクト・ストレージ、効率の高い取得、エクサバイトのスケーラビリティーのために均一導入を活用することで、ABC Storage 高性能オブジェクト・ストレージ・エンジンは、プライベート・クラウドのユーザーに膨大な数の小さな非構造化ファイルのストレージを提供することができます。

AI トレーニングのプロセスは、データ収集、クリーニングとラベリング、サイズ変更、モデル化、トレーニング、評価、予測で構成されます。ストレージシステムは、各ステップで読み出し、書き込み、取得の操作を実行しなければなりません。完全な運用向けにシステムをトレーニングするのに十分なデータを提供するため、トレーニングを通じてデータは多くの並行処理と反復的スループットの対象となります。

Baidu のオブジェクト・ストレージ・エンジンは、大量ファイルにおけるパフォーマンスの問題を解決し、これによりストレージシステムの安定したパフォーマンスを実現して AI アプリケーションのデータ活用の効率を向上させます。一方、トレーニング中の特定の読み出し / 書き込みが混在する操作では、エンジンがさらなる最適化を実行し、読み出し / 書き込み混在のシナリオでシステムのパフォーマンスが影響を受けないようにします。

さまざまな最適化のテストを行った結果、ソフトウェアだけで、ファイルの数が増加しても安定したパフォーマンスを維持できることがわかりました。図 1 に示すように、ファイルの数が 1 億から 80 億件まで徐々に増加した場合、クエリ毎秒 (QPS) とレイテンシー・パフォーマンスは、5 パーセント4 の幅で変動しました。

ハードウェア

先述のとおり、HDD を高性能ストレージ・ソリューションに利用するには複数の課題があります。SSD には実質的にシーク時間や回転レイテンシーがないため、HDD と比較して高い IOPS のパフォーマンスを実現します。Baidu AI Cloud では、インテル® Optane™ SSD とインテル® QLC 3D NAND SSD テクノロジーの組み合わせを使用して、ABC Storage オールフラッシュ・オブジェクト・ストレージ・ソリューションの中核をなすハードウェアを構成しました。インテル® Optane™ SSD は、革新的なインテル® 3D XPoint™ ストレージ・メディアを搭載、高度なシステム・メモリ・コントローラー、インターフェイス・ハードウェア、ソフトウェア・テクノロジーを取り入れて、低レイテンシーと高い安定性を提供します。Baidu ソリューションでは、以下のデバイスを使用します。

インテル® Optane™ SSD DC P4800X は、キャッシュ、MDS、ログシステムなど中核ストレージ・システム分野に導入されています。このデバイスは、ランダムな読み出し / 書き込みで最大 550,000 IOPS の性能と 10µs 未満の読み出し / 書き込みレイテンシー5 を実現し、複数ユーザーおよび大量の並行処理のシナリオでのソリューションの効率を高めます。一方で、その 1 日当たりドライブ書き込み回数 (Drive Writes Per Day、DWPD) のパフォーマンスは、長い寿命期間を提供しつつ優れた経済的価値を確保します。

インテル® QLC テクノロジーをベースにしたインテル® SSD D5-P4320は、大容量のデータストレージを提供します。インテルの 64 層 3D NAND テクノロジーにより、1 台で最大 7.68TB の QLC SSD ディスク容量を実現し、大容量データのストレージ要件を十分に満たすことができます。また、ランダム読み出しの IOPS は最大 427,0007 で、インテル® Xeon® Gold 6142 プロセッサーと組み合わせた場合、AI トレーニングなどのアプリケーションシナリオにおける「1 度書き込み、何度も読み出し (Write Once, Read Many、WORM)」のパフォーマンス要件を満たすという点で特に最適です。新しいソリューションで利用されているインテル® SSD D5-P4320 は、大容量ストレージの要件を効果的に満たします。

ABC Storage ソリューションでは、各ストレージサーバーには 4 台の SSD が導入され、15KB のファイルを最大 20 億個格納できる 30TB のストレージ容量を提供します。さらに重要なのは、インテル® QLC 3D NAND SSD の価格とパフォーマンスの比率により、この SSD の組み合わせは、ソリューションの高い性能を確保しながらシステムの総所有コスト (TCO) を効果的に削減します。Baidu のテストでは、Baidu AI Cloud の高性能オールフラッシュ・ソリューションは TCO を 60% 引き下げる可能性があることを示しました。6

結果

インテルからの支援も受け、Baidu AI Cloud チームは、ABC Storage 完全フラッシュ・ストレージ・ソリューションのパフォーマンスの細かい評価と測定を行いました。図 2 は、ベンチマーク・テストのフレームワークを示します。これには、5 つのサーバーからなるクラスターが含まれており、各サーバーには 2 つのインテル® Xeon® Gold 6142 プロセッサーと 256GB のメモリーによって構成されています。1 台の 750GB インテル® Optane™ SSD DC P4800X と 4 台の 7.68TB インテル® SSD D5-P4320 ドライブが利用されました。システムは 40GbE ネットワークを利用してコンピューティング・プラットフォームに接続しました。

テストでは、インテル® Optane™ SSD とインテル® 3D NAND QLC SSD テクノロジーの組み合わせは、AI トレーニング・アプリケーションのシナリオ向けストレージシステムのパフォーマンス要件を十分満たすことが示されました。表 1 は、ABC Storage の基本バージョンのパフォーマンス結果を示しています。

将来的な展開

Baidu AI Cloud ABC 戦略の重要で実用的な結果の 1 つとして、ABC Storage 高性能オールフラッシュ・オブジェクト・ストレージ・ソリューションは、ストレージ・パフォーマンスとストレージ容量が改善された AI トレーニング、ビッグデータ分析、高性能コンピューティングなど、プライベート・クラウド・アプリケーションのシナリオ向けに強力で信頼できるサポートを提供しています。

インテルの製品とテクノロジーは、ソリューションの成功にとって重要な要因です。将来的には、両者とも既存のソリューションのパフォーマンスを最適化するために、より多くのパートナーシップに着手しつつ、インテルの製品とテクノロジーをより多く取り入れる予定です。また、両者ともオールフラッシュの高性能オブジェクト・ストレージ・ソリューションをより多くのアプリケーション・シナリオに拡張し、大量のデータを IT テクノロジーの開発と企業のデジタル化の変革を推進する原動力へと真に変換することを計画しています。

Baidu AI Cloud ソリューションのメリット

  • ABC Storage 高性能オブジェクト・ストレージ・エンジンは、AI トレーニングやハイパフォーマンス・コンピューティングといったアプリケーション・シナリオ向けの統合型オブジェクト・ストレージ・インターフェイスを提供し、ファイル数が急増した場合にも安定したパフォーマンスを発揮します。
  • 対象を絞った最適化プロセスにより、ABC Storage 高性能オブジェクト・ストレージ・エンジンは、大容量データ向けに「読み出し / 書き込み」、「WORM」、「読み出し / 書き込み混在」のシナリオが必要な場合にストレージ・システムが優れたパフォーマンスを維持することに役立ちます。
  • インテル® Optane™ SSD とインテル® QLC 3D NAND テクノロジー搭載のインテル® SSD を組み合わせることで、ABC Storage オールフラッシュ・オブジェクト・ストレージ・ソリューションは優れたパフォーマンスを維持しながら、TCO を大幅に削減します。

    PDFをダウンロード

Baidu ABC Storage: Redefining Object Storage