世界最大級のコンテンツ・ディスカバリー・プラットフォーム「Taboola」が確実な選択肢としてソリダイムのSSDを採用

Taboolaは、ウェブ全体で毎月10億人を超える人々にカスタマイズした3,600億ものコンテンツ・レコメンデーションを提供する、世界最大級のディスカバリー・プラットフォームです。 ディープラーニング (DL) テクノロジーが組み込まれたTaboolaは、消費者の興味関心や情報の利用に関する固有のデータをもとに、適切なコンテンツを、適切な人を対象に、適切なタイミングで「おすすめ」として表示します。Bloomberg、NBC News、MSN、The Independent、The Weather Channelをはじめとするトップサイトでも、Taboolaのコンテンツ・レコメンデーションをよく目にすることがあるのではないでしょうか。

Taboolaのアルゴリズムでは、顧客のコンテンツを分析し、そのコンテンツに対して最もエンゲージメントが高いであろうユーザーとマッチングさせるために使用される多数の「シグナル」を抽出します。DLテクノロジーは、そうした人々に対してコンテンツを推薦し、その推薦に対する人々の実際の反応に基づいて、ターゲットを絞り込む仕組みです。

コンテンツ・レコメンデーション企業であるTaboolaがソリダイムのソリッドステート・ドライブ (SSD) を採用した理由は、その信頼性とコスト効率にあります。詳細については、顧客の成功事例をダウンロードするか、このページを読み進めてご確認ください。

人工知能 (AI) を使用したオーディエンスの興味関心の予測は、確かにTaboolaモデルの最重要事項ですが、TaboolaのIT担当副社長を務めるアリエル・ピセツキー氏の興味を最も引いた技術的課題は他にありました。[1] 最大の課題は、限られた予算制約の範囲内で、数学とエンジニアリングの側面からTaboolaシステムをいかにして拡張するかにあります。

ピセツキー氏は、次のように述べています。「現在オープンソースのコミュニティーには拡張性の高いソフトウェア・ソリューションが数多くあり、1台のサーバーから数千ノードへと拡張可能になっているため、エンジニアリングの作業はもう終わったようなものです。今こそこれらのパズルのピースすべてを一貫した方法でつなぎ合わせ、大規模なインストール・ベースを少人数で管理できるようにする必要があります」

課題: クラウド・データセンターに適応するストレージのスケーリング 世界中で約1万台のサーバーを運用し、9つのデータセンターを擁するTaboolaは、独自のプライベート・クラウドを構築しており、各データセンターが基本的に小型のスーパーコンピューターで構成される、ハイパフォーマンス・コンピューティング (HPC) インフラストラクチャーで稼動しています。このデータセンターごとに、コンテンツ・レコメンデーション・エンジンのコアにある機械学習 (ML) アルゴリズムにデータを供給するための大規模なストレージが必要です。現時点でTaboolaは1日に約100TBのデータを処理しており、データセンター全体に分散されたSSDから数十ペタバイトのストレージ容量を確保しています。 重要なのは、Taboolaがハイパーコンバージド・インフラストラクチャー (HCI) を導入している点で、各データセンターそれぞれに独自にコンピューティング、ネットワーキング、ストレージのコンポーネントを緊密に統合した、自己完結型の「ビルディング・ブロック」コンピューティング・システムが配置されています。このアーキテクチャーでは、Taboolaレコメンデーション・エンジンの要件を十分に満たすにあたり、SSDストレージの信頼性が極めて重視されます。 データセンターのストレージが別々に処理され、コンピューティング・エレメントから分離されているのであれば、故障したユニットを簡単に識別し、場所を特定して新しいユニットと交換できるため、個々のSSDの信頼性はそれほど重要ではなくなるでしょう。しかしSSDは数百または数千ものハイパーコンバージド・システムに分散して配置されているため、故障したユニットの識別と交換のプロセスには多大な労力を必要とし、故障率がわずかに上がっただけでも、保守コストは急速に増大します。 TaboolaのIT部門は、最大規模のインストール・ベースを可能な限り最小限の人数で管理できるようにすることを主な目的としているため、調達を判断する上でSSDの信頼性は極めて重要な要素となります。この信頼性に対する高いしきい値が満たされて初めて、パフォーマンスと価格が検討されます。 ソリューション: ソリダイムこそTaboolaにとっての最適なSSDパートナー これまでTaboolaは複数のベンダーからSSDを調達していました。しかしながら、Taboolaは過去の経験から、他ベンダーのSSD製品では品質と信頼性の要件を満たさないことを学習しました。そこでデータセンター・ストレージの大部分をソリダイムのSSDに切り替える判断を下しました。ソリダイムのSSDならば、Taboolaが求める強固な信頼性と高水準パフォーマンスのすべてが魅力的なコストで手に入ります。ソリダイムはSSDの耐久性においても実績あるトップ企業です。ソリダイムのデータセンター向け第1世代クアッドレベル・セル (QLC) NANDドライブであるD5-P4320 (旧 インテル製品) は、その時点ですでに競合するQLC NAND SSD製品と比べて最大4倍の耐久性を実現していました。また、このSSDよりも新しいソリダイムのD5-P5316 (旧インテル製品) は、1日当たりのドライブ書き込み数 (DWPD) 0.41という業界最高レベルの耐久性をQLC NAND SSDにもたらし、前世代のQLC NAND SSDと比較して最大5倍のランダムライト耐久性を実現します。[2] Taboolaのワークロードの大半は、MLアルゴリズムへのデータ供給に集中しています。これはリード負荷の高いタイプのワークロードであり、トリプルレベル・セル (TLC) SSDと比べてギガバイト (GB) 当たりの容量コストを抑えられることからも、QLC SSDはストレージ処理の大半を実行するのに適していると言えます。大規模なMicrosoft SQL Serverデータベースなど、一部の特殊なタイプのワークロードの場合、ライト負荷の高い環境で一層高い耐久性と信頼性が必要となるため、TLCドライブに投資する価値はあるとTaboolaは考えています。ソリダイムのD5シリーズSSDでストレージ・インフラストラクチャーを構築するメリットソリダイムのSSDを基盤に構築された信頼性の高いストレージ・インフラストラクチャーにより、Taboolaは必要なときにストレージがそこに存在するという自信を持って、レコメンデーション・エンジン・ビジネスをさらに拡大することができます。Taboolaの分散型ハイパーコンバージド・ストレージ・アーキテクチャーに高い信頼性を持つSSDがあることで、保守コストも抑えられます。その分をITの人材不足問題への対処に割り当てることができます。 「サーバーに従事できる人材の割合は一定です。毎年エンジニアリングの学部を卒業する人材が十分とは限らず、現状のリソースで常に改善していかなければなりません」(ピセツキー氏)[1] インフラストラクチャーの規模に比例して人材を増やす必要性を回避するためにTaboolaがとった方法の1つが、大容量かつ信頼性の高いSSDで運用を拡大することです。  また、ソリダイムのSSDを長期的に調達していれば、進化するSSDテクノロジーの最先端を維持するソリダイムの熱心な取り組みにより、常にパフォーマンス面で優位性を手に入れることができると、Taboolaは分かっています。Taboolaは巨大なハイパースケラーほどの大企業ではありません。しかし、1万台のサーバーを運用しており、1,000 ~ 5万台のサーバーを抱える中規模企業の多くが共感できる規模のポジションにあります。SSDの信頼性を最優先として着目したTaboolaのストレージ戦略の成功は、ほかの多くの企業にとっても十分に機能する戦略となるはずです。Taboolaについて Taboolaは、機械学習 (ML) と大量のデータセットで構築されたレコメンデーション・エンジンを実装する、オープンウェブ上で世界最大級のコンテンツ・ディスカバリー・プラットフォームです。世界全体で1万台のサーバーを擁して9つのデータセンターを運用しており、SSDによって数十ペタバイトのストレージ容量を確保しています。信頼性はSSDの調達においてTaboolaが最も重視する前提条件です。その次に重視する要素として、コスト効率が続きます。Taboolaでは遡ること数年前、信頼性とパフォーマンスを理由に、ソリダイムのSSD (旧インテル製品) によって標準化することを選択しました。