共有

公開 May 7, 2024

著者 Allyson Klein

記事

CoreWeave で大規模な AI パフォーマンスを実現


TechArena の Allyson Klein 氏によるパートナー記事

最近、AI 時代のウッドストックの瞬間と呼ばれる NVIDIA GTC に出席しましたが、AI ワークロードを推進する業界のイノベーションについて、そこで学んだことをさらに掘り下げています。TechArena では、イベント業界のイノベーターたちとの可能な限り多くの会話が詰め込まれていましたが、CoreWeave の Jacob Yundt 氏とのインタビューは、特にほかの会話よりも際立っていました。彼は、CoreWeave がクラウド上で比類のない規模の AI トレーニングを提供するための軌道を描きながら、インフラストラクチャーの構築をリードしています。 どのように実行しましたか?多くの変曲点で見てきたように、CoreWeave はレガシーの影響を受けないという優位性を利用して、初期プロビジョニングからヘルスチェック、オーケストレーション、スケジューリングまで、AI トレーニング・クラスター向けに特別に構築されたクラウド・スタックを提供してきました。これにより、同社は特定のトレーニング・タスクに対して驚異的な量の GPU をワープスピードで起動し、トレーニング期間全体にわたって信頼性の高いコンピューティングを提供できるようになります。CoreWeave は、インスタンスをプロアクティブに監視し、潜在的なハードウェアの故障、I/O の問題、またはデータセンター・インフラストラクチャーが直面するその他の問題よって貴重なトレーニング・サイクルが中断されないようにします。 トレーニング速度が市場機会の差となることが多いので、CoreWeave はアルゴリズムのトレーニングに取り組んでいる AI スタートアップ企業の間でカルト的な人気を博しています。Jacob 氏は、「画期的な仕事を驚異的な規模で」したいと考えているあらゆる顧客に自社の市場が焦点を当てていることを明らかにしましたが、これはコンピューティング、ストレージ、ネットワークにわたって基盤となるインフラストラクチャー要件の種類を物語っています。 そしてこのインフラストラクチャーの需要はきわめて大きいものです。CoreWeave は、そのトレーニング・クラスターからの電力需要だけでも同社が事業を営んでいる地域の電力網に負担をかける可能性があると公言しており、CoreWeave の需要も指数関数的に伸びています。 昨年 12 月に 70 億ドルと評価された同社の評価額は、4 か月後の最新の議論では 160 億ドルにまで上昇しており、AI トレーニングの成長の可能性を浮き彫りにしています。 CoreWeave で AI サービスを提供するために活用しているインフラストラクチャーとは?そのトレーニングが NVIDIA GPU に依存していることは周知の事実であり、CoreWeave は液体冷却技術を活用して次世代 Blackwell GPU をクラスターに統合する予定です。しかし、Jacob 氏は、彼らが達成できた画期的な規模には GPU を超えるものがあると強調しました。その規模は、データ・パイプラインの再構築から始まり、CoreWeave は VAST Data と戦略的パートナーシップを結び、GPU 性能のニーズに合わせて拡張できる革新的なデータ管理と制御を提供しています。VAST Data のプラットフォームは、データセットを管理するための新しい機能を推進し、データをより効率的かつ迅速に処理施設群に取り込み、従来の階層型ストレージ・ソリューションに関連するオーバーヘッドの多くを排除します。 Jacob 氏は、VAST Data とのコラボレーションは、QLC ストレージに対する彼のチームの愛情と、QLC が提供するパフォーマンス、容量、効率性の慎重なバランスから始まると述べました。Jacob 氏が QLC のファンであるというのは控えめな表現であり、セルあたりのデータ密度の向上において TLC テクノロジーに対する QLC の優位性を考えると、それは驚くことではありません。 Jacob 氏によれば、Solidigm との長年にわたる協力関係により、彼のデータセンターへの QLC の展開は、調達のみならずアカウントやエンジニアリングサポートにまで及ぶパートナーシップによって確実なものとなったということです。CoreWeave でトレーニングされている LLM の規模を考えると、 大量の QLC NAND が展開されていることが容易に推測されます。 CoreWeave の次なる目標は?この欄では、広範な AI 市場導入の前兆としての継続的なインフラストラクチャー構築の詳細をご覧いただけます。また、AI トレーニング・スタック向けに構築されたクラウド・サービス・プロバイダーの状況に CoreWeave が影響を与えるかどうかにも興味があります。また、Solidigm によるデータインサイト・シリーズなど、データ・パイプライン・インフラストラクチャー業界の進歩についても報告する予定です。


Solidigm がスポンサーを務める TechArena のデータインサイト・シリーズをフォローし、Coreweave が AI 顧客へのスケーラブルなデータ・パイプラインの配信をどのように変革し、Solidigm QLC SSD などの最先端の VAST データ・ソリューションを活用しているかをご覧ください。

CoreWeave で大規模な AI パフォーマンスを実現