DUG、VAST Data Platform と Solidigm™ のストレージで RNA シーケンシングの高速化を実現

地震探査から RNA シーケンシングまで、DUG は VAST Data Platform と Solidigm の QLC SSD の利用により HPCaaS を再定義しています

Solidigm, DUG, and VAST Data work together for AI high performance computing as a service.
Solidigm, DUG, and VAST Data work together for AI high performance computing as a service.

DUG Technology Ltd(DUG)はハイパフォーマンスコンピューティング(HPC)ソリューションのリーダー企業としてイノベーションを推進しており、同社のソリューションは、資源セクターに関わる地震解析から、ヘルスケア向けのゲノム解読まで、さまざまな分野で応用されています。強力な HPC-as-a-Service(HPCaaS)サービスで、DUG は複雑な課題に取り組む組織に計算リソースを提供し、オンプレミスのインフラ不要で、拡張性と柔軟性のあるソリューションを実現しています。

DUG について

DUG は2003年、DownUnder GeoSolutions として創業。地層科学サービス事業者として、共同創業者マシュー・ラモント氏の自宅の裏庭で事業をスタートしています。22年を経た現在、DUG はパース、ロンドン、ヒューストン、クアラルンプール、アブダビにオフィスを構え、さまざまな業界の顧客層をサポートしています。また、世界最大規模のスーパーコンピューターで構成されるネットワークを設計、所有し、運営しています。

DUG のハリー・マクヒュー最高情報責任者(CIO)は、「当社の HPC ワークロードには、地震データ処理とイメージング、バイオインフォマティクス、人工知能、リモート地球観測、数値流体力学、電波天文学などがある。」と述べています。

「ここで重要なのは、HPC が現代の科学的発見をもたらすものであり、HPC は今や本当に必要不可欠になっている。」

「DUG のテクノロジーを実現する核となっているのは、先進的なストレージアーキテクチャーであり、大量のデータを処理するワークロードを高速化するうえで、きわめて重要な役割を果たしている。」と、マクヒュー氏は述べています。

DUG は当初、HDD ベースのストレージを使用し、HPC アプリケーションをサポートしていましたが、特に Lustre ベースのファイルシステムでパフォーマンス上のボトルネック、信頼性の懸念、拡張性の限界に直面しました。特にデータの複製と書込みが何度も必要になる地震関連のワークロードにおいてデータ処理の需要が高まるなか、DUG は一貫して高速な入出力(I/O)パフォーマンスを確保するため、より汎用的で拡張性の高いソリューションを必要としていました。同社は、効率とコストパフォーマンスを維持しながら、エクサスケールの要件に対応可能なストレージアーキテクチャーを求めていました。

「従来のストレージシステムと比較すると、VAST と Solidigm のアーキテクチャーでこれらのワークロードを実行した場合、速度は1.7倍向上し、ランタイムコストは40%削減された。VAST と Solidigm によって達成した高速化は驚くべきものだ。」と、DUG¹ のハリー・マクヒュー最高情報責任者は述べています。

ビッグデータのコンピューティングに関する課題

DUG のコンピュートパワーのほとんどは、地震データの処理とイメージ作成に使用されていますが、バイオインフォマティシャンなども同社の HPCaaS を利用しています。このような顧客の場合、RNA シーケンシングの計算負荷の課題を抱えるワークロードを処理する必要があります。研究者は RNA シーケンシングを使用してゲノムデータを解析しますが、このプロセスでは小規模なファイルが大量に生成されるため、最小限の遅延で広帯域に対応できるストレージシステムが必要です。

「RNA シーケンシングのワークフローは通常100 GB 程度の入力データを扱い、5 TB ほどの出力データセットを生み出すことができる。」と、マクヒュー氏は言います。「入力と出力の差は非常に大きく、小規模なファイル数百万件ほどになる。」

このようなデータの爆発的な増加によって、ストレージとコンピューティングインフラに多大な負荷がかかります。この課題には、Solidigm™ SSD テクノロジーを活用する、専用の VAST Data Platform が適しています。DUG は、ビッグデータのワークロードを処理することを目的とした、高性能で拡張性の高いデータソリューションである VAST を選択しました。VAST Data Platform のストレージレイヤーは、Solidigm の SSD ストレージと最先端のデータ削減および効率化技術を組み合わせ、RNA シーケンシングなどの大規模なデータセットを簡単に、効率的に管理できるようになっています。

「分散ファイルシステムは、こうした(バイオインフォマティクスの)ワークロードが発生した場合に必要不可欠だ。」とマクヒュー氏は述べています。「高性能で信頼性が高くなければならない。高い IOPS が求められる。つまり、VAST が提供するすべてのものを備えていることが必要だ。」

VAST Data Platform は、並列ファイルシステムのパフォーマンスとスケールを、シンプルな NAS(ネットワークアタッチドストレージ)で提供することによって、HPC を高速化します。

RNA シーケンシングのメリット

RNA シーケンシングは、転写レベルで疾患を理解し、治療する手段に革新をもたらしています。細胞や組織全般における遺伝子活性のリアルタイムのスナップショットを得ることができます。ゲノムの動きを動的に確認できる RNA シーケンシングでは、DNA のみの場合より詳細な知見が得られます。臨床医がより正確に診断し、的を絞った治療を行い、患者の転帰を改善するうえで役立っています。ここでは、RNA シーケンシングがいかに医療を変革しているかについて、いくつかご紹介します。

  • 精密診断:RNA シーケンシングは、患者の細胞内でどの遺伝子が活発に発現しているかを明らかにします。臨床医が疾患のサブタイプを区別し、希少疾患や誤診された疾患を検出し、バイオマーカーに基づく診断へと導くうえで役立っています。
  • 個別型治療:患者の遺伝子のオン/オフの切り替えをプロファイリングすることにより、RNA シーケンシングで標的療法の選択、経時的な治療効果のモニタリング、薬剤耐性メカニズムの明確化が可能になります。
  • 感染症管理:RNA シーケンシングは、培養が困難な場合でも、ウイルス、細菌、およびその他の病原体の検出と特性評価に役立てられます。病原体の進化(新型コロナウイルス感染症の亜種など)をリアルタイムでモニタリングし、感染に対する宿主の免疫反応を検出することも可能です。
  • 複雑な疾患の理解:神経変性疾患、自己免疫疾患、精神疾患などの疾患に関して、RNA シーケンシングにより、遺伝子誤調節のパターンが明らかになり、疾患パスウェイや進行に関する知見が得られ、また治療の新規標的を発見できます。
  • 癌研究とオンコロジー(腫瘍学):RNA シーケンシングはオンコロジーの基礎を成す手段となっています。腫瘍増殖を促す遺伝子の融合や変異の同定、臨床試験に向けた患者の層別化、RNA ベースの治療薬の開発に役立てられています。

Solidigm と VAST Data は DUG の HPCaaS サービスをどのように実現しているか

VAST Data Platform を支えているのは、Solidigm の高密度 QLC SSD ですが、このテクノロジーが DUG の課題を数多く解決してきました。

Solidigm の QLC SSD テクノロジーで実現した VAST のデータプラットフォームは DUG に画期的なソリューションをもたらしました。Solidigm の QLC SSD を導入することで、VAST は HDD ベースのシステムより競争力のあるオールフラッシュストレージを手頃な価格で提供できるようになっています。

Solidigm の SSD を搭載した VAST Data Platform に移行することにより、DUG は単一障害点のないエクサスケールの拡張性、強化されたデータ保護と圧縮機能、効率的なマルチテナントクラウド環境を実現しました。

さらに、VAST Data が提供するリモートアプライアンス管理機能で、DUG の運用上のオーバーヘッドが大幅に抑えられ、ダウンタイムなしの更新とプロアクティブなパフォーマンス監視が可能になっています。その結果、信頼性が高く、コスト効率に優れ、将来を見据えたストレージインフラが実現し、DUG は複雑さを軽減しながら、コンピュート機能を拡張できるようになりました。このソリューションにより、ボトルネックとなっていたストレージは戦略的な資産となったことで、DUG は新たな市場を追求して、複数の業界でのイノベーションの推進が可能になっています。

長年にわたり、VAST は 搭載しているSolidigm のストレージ技術を世代ごとにアップグレードすることで、大容量化を実現してきました。

「私たちは VAST と共に歩んできた。当社の拠点にインストールしている VAST の規模が、長年の間に大きくなってきた。」と、マクヒュー氏は述べています。「私たちがこの関係が続けられることには大きな意味がある。」

従来のストレージシステムは、大容量のストリーミングの読み取りと書込みに最適化されていることが多く、地震処理のような用途には適していますが、ゲノム研究でよく見られる、小さく断片化されたファイル構造を扱いづらいとマクヒュー氏は指摘しています。

「当社のインフラに Solidigm の SSD ストレージを導入すれば、これらの高いランダム IOPS のワークロードを効率的に管理できる。」と、マクヒュー氏は述べています。「速度と効率を維持しながら、規模を拡大できるようになっている。」

従来の HDD と Solidigmのストレージソリューションのパフォーマンス比較

DUG のバイオインフォマティクスの顧客にとって、VAST と Solidigm の組み合わせは運用上の大きなメリットとなります。大規模なデータスループットとスピーディーなファイルアクセスを処理できるシステムは、ゲノムシーケンシングプロセスを加速させる鍵となります。

DUG はベンチーマーキングを実施し、Solidigm の高度なストレージソリューションを活用すれば、バイオインフォマティクスのワークロードを大幅に効率化できることを証明しました。

図1. パフォーマンスの向上とランタイムコストの削減

「従来のストレージシステムと比較すると、VAST と Solidigm のアーキテクチャーでこれらのワークロードを実行した場合、速度は1.7倍向上しランタイムコストは40%削減された。」 とマクヒュー氏は言います。「VAST と Solidigm によって達成した高速化は驚くべきものだ。」1

VAST Data との連携拡大

VAST のプラットフォームの信頼性も、DUG がこのテクノロジーに投資を続ける重要な要素です。Solidigm のストレージデバイスの質と信頼性により、一層強化されました。

「信頼性とパフォーマンスは多くの場合、トレードオフの関係にあるが、VAST と Solidigm のおかげで両方を実現している。」と、マクヒュー氏は説明しています。このバランスが実現できているからこそ、DUG の顧客は、最も大量のデータを処理するワークロードをサポートするインフラを信頼することができます。

産業界がデータ駆動科学の限界に挑み続けるなか、堅牢なハイパフォーマンスコンピューティングソリューションのニーズはますます高まっていくでしょう。Solidigm のエンタープライズ SSD ストレージによって実現した VAST Data のエコシステムを DUG が使用しているという点は、地震処理からバイオインフォマティクスまで、複数の業界でテクノロジーがいかにイノベーションの原動力となりうるかを物語る好例となっています。


注意と免責事項

1. 出典:DUG

本資料に記載した内容はすべて、明示されているか否かにかかわらず、いかなる保証を行うものでもありません。ここにいう保証には、商品適格性、特定目的への適合性、および非侵害性の黙示の保証、ならびに履行の過程、取引の過程、または取引での使用から生じるあらゆる保証を含みますが、これらに限定されるわけではありません。

本書で説明されている製品には、「エラッタ」と呼ばれる設計上の不具合が含まれている可能性があり、公表されている仕様とは異なる動作をする場合があります。現在確認済みのエラッタについては、Solidigm までお問い合わせください。

Solidigm は、サードパーティーのデータについて管理や監査を行っていません。ほかの情報も参考にしてデータの正確さを評価してください。

製品をご注文される前に最新の仕様をご希望の場合は、Solidigm の担当者または販売代理店にお問い合わせください。

SOLIDIGM および Solidigm の「S」のロゴは、米国、中華人民共和国、日本、シンガポール、欧州連合、英国、メキシコ、およびその他の国で登録されている、SK hynix NAND Product Solutions Corp(商号Solidigm)の商標です。