NASA気候シミュレーションセンターのハイパフォーマンスコンピューティング(HPC)の主任であるLaura Carriereが、大気中のエアロゾルをモデル化するNASAの取り組みについて語ります。Lauraは、最新の科学的要求に歩調を合わせるため、限られた予算の中でモジュラー型のコンピュートインフラを活用し、HPCを最新の状態に保つための取り組みについてJenieceと共に話します。NASAが衛星や大気中に散在する気球から収集する膨大な量のデータは、解析や可視化が必要であるため、ストレージは彼らの重要な検討事項のひとつとなっています。
Supercomputing 2024の専門家によるさらなるインタビューについては、『Data Fueled Insight and Discovery Shine at Supercomputing 2024(Supercomputing 2024で際立つデータ駆動の洞察と発見)』をお読み/お聞きください。
Jeniece Wnorowski: Laura、ようこそ。またお会いできて嬉しいです!
Laura Carriere: ありがとうございます。
Jeniece: 私たちはSuper Connect 2024に来ています。たくさんのイベントが行われていますが、今日ここでお会いできて光栄です。まず、NASAではどのようなお仕事をされているのか少し教えていただけますか。
Laura: わかりました。私はNASA Center for Climate Simulationのハイパフォーマンスコンピューティング(HPC)の主任を務めています。NASAにある2つのスーパーコンピューティング施設のうちの1つで、所在地は[Maryland]州グリーンベルトにあります。そして正直に言うと、2つの施設のうち私たちの施設のほうが小規模です。主な対象は地球科学で、そのほかにも天体物理学、太陽物理学、惑星科学も担当しています。これらすべての研究を、私たちのスーパーコンピューター上で行っています。
Jeniece: 素晴らしいですね。そのスーパーコンピューターで取り組んでいる研究について、いま特に注力していることや情熱を注いでいる分野を教えてください。
Laura: 地球科学の領域では、主な目標は気候研究です。そこには気候変動に関する研究も含まれますが、それだけでなく、GMAO(Global Modeling and Assimilation Office:全球モデリング・同化オフィス)のようなグループによるエアロゾル研究も多く含まれています。彼らは気候モデルを運用していますが、特に大気中でエアロゾルがどのように移動するか、つまり大気汚染物質、炭素、硝酸塩、硫酸塩などがどのように運ばれるかに強い関心を持っています。そして、Scientific Visualization Studioの作品として公開されている美しい可視化データを作成しており、そこで彼らの素晴らしい仕事ぶりがよく分かります。
Jeniece: 素晴らしいですね。そのエアロゾルにとても興味があります。大気の奥深くまでどのように侵入していくのかが見える、ということですか?
Laura: そのとおりです。3次元モデルなので、[the world]の周りを移動する様子を追うことができます。例えば、サハラ砂漠から出た砂塵が大西洋を横断してフロリダに到達する様子を見ることができます。ハリケーンの中で舞い上がる様子も確認できます。海塩が極域周辺の海から舞い上がる様子も、下層でしばしば捉えられます。彼らはこれらを可視化し、とても優れた仕事をしています。また、火力発電所などからの排出物が大気に取り込まれていく様子や、森林火災による煙なども見ることができます。
Jeniece: すごいですね。なるほど、これらすべての研究はスーパーコンピューターで行っているとおっしゃっていましたね。そのスーパーコンピューターについて少し教えていただけますか? 特別な名前が付いているのでしょうか?
Laura: はい。私たちのスーパーコンピューターの名前はDiscoverです。2006年に設計されたものです。その仕組みとして、[that]実は電力制約があります。使える電力量には限りがあります。毎年予算が割り当てられると、その範囲でスーパーコンピューターを拡張します。電力が不足するまで拡張し、さらに資金が入ると、スーパーコンピューターの最も古い部分を廃棄し、新しい部品を導入します。こうして長年にわたり、私たちは「スケーラブル・コンピュート・ユニット」と呼ばれるものを継続的に追加してきました。現在では、14、16、17、18といった世代のユニットがフロアにあり、研究者たちが使用できる状態になっています。当初はIntelのチップを使っていましたが、現在はAMDに移行しました。Discoverは基本的にCPUベースで構成されており、小規模なGPUセクションがあり、テストや学習、新しい開発のために使用されています。さらにPrismと呼ばれる、より大規模なGPU専用施設もあり、ここでも多くの開発が進んでおり、非常に興味深い科学成果が生まれています。
Jeniece: 素晴らしいですね。では、ストレージについてはどうでしょう? ストレージ層についても教えていただけますか?
Laura: はい。すべてのシステムにストレージがあります。つまり、従来型のHPC(Discover)があり、約60ペタバイトほどのストレージを備えています。さらに、NASAの厳選されたデータ製品を保管するための中央集約型ストレージがあります。対象となるのは、MODISデータ、Landsatデータ、MERRA-2データなど、NASAのデータプロダクトとして十分に理解され、定義されているものです。これらのデータは、Prismを含むオンプレミスのクラウド環境からも利用できます。つまり、すべてのデータはそれぞれのシステムからアクセス可能です。私たちは、そうであれば良いと願っていますが、こうした仕組みによってシステム内でのデータ重複が減り、新しい科学研究のためのスペースをより多く確保できると考えています。
Jeniece: その通りです。そして、気候変動を調べるために膨大なデータがさまざまな場所からどんどん入ってくる中、科学研究もますます進んでいます。データが入ってきた後、それをどのように処理しているのか教えてください。日常的にはどのようなデータを見ているのでしょうか? さきほどBill [Thigpen, Assistant Division Chief for High End Computing, NASA]と話していたのですが、彼らは「すべてをアーカイブしている」と言っていました。皆さんも同じようにアーカイブしているのですか?
Laura: 私たちはそこまで多くはアーカイブしていません。実際、Billの施設であるAMESを利用して、一部のアーカイブ作業を行っています。ただ、私たちが目指しているのは、データをスピニングディスク[HDD]上に置いたままにしておくことで、研究者がすぐに分析に使えるようにすることです。私たちはアーカイブ施設としての資金を受けているわけではないため、アーカイブ作業は私たちのリソースを圧迫し、スーパーコンピューティングの業務を妨げる要因になっています。しかし、データ管理計画を非常に得意にこなす担当者がいます。そこで私たちはユーザーと協力し、入力データ、中間データ(いずれ削除されるデータ)、そして最終的なデータ製品を教えてもらうようにしています。どれくらいの大きさですか? どれくらいのスピードで増えていくのでしょう? それが分かれば、私たちもストレージ要件を計画し、適切なタイミングで適切なストレージを導入できますよね。
Jeniece: では、こう言ったらどうでしょう、、、さきほどスピニングディスクの話をされていて、Billも同じことを言っていましたが、実は、私たち([Solidigm])は、122 TBもの容量を備えたソリッドステートドライブというデバイスを、この小さな装置で実現しました。どれくらい軽いか、持ってみてください。
Laura: とても素晴らしいですね!
Jeniece: とても軽いでしょう? ちょっと気になったのですが、あなたはストレージ専門というわけではないと理解していますが、システム内にこれだけたくさんのスピニングディスクがあるなら……
Laura: それらを置き換えたいか?ということですか。はい。可能なら、もちろん置き換えたいです。スピニングディスクには、2つの利点があります。1つは、信頼性があり、そしてさほど高価ではないこと。もちろん、信頼性には限界がありますが。なので、私たちはスピニングディスクに満足していますし、使い慣れていますし、問題なく動作します。ただし、先ほども言ったように、電力を多く消費するので私たちは電力の制約を受けています。ですから、なんとしてでも電力消費を減らすことができるのであれば、有難いのです。SSD、つまりソリッドステートであれ何であれ、まったく電力を使わないわけではありませんが、消費電力は少なくなります。私の目標のひとつは、より多くのソリッドステートに移行するために、手頃な適切なソリューションを見つけることです。ただ、私たちには課題があります。気候研究で使用するデータはNetCDFデータで、もともと非常に強く圧縮されています。ところが、多くのSSDのコストモデルは「データをさらに圧縮できるので、結果的にコストメリットが生じる」という考え方なんです。しかし、私たちのデータはこれ以上圧縮できないので、そのモデルが全く当てはまらず、本当に難しい状況にあります。それでも、パフォーマンス向上のためにSSD化を進めています。そして実際、最新の高速チップでモデルを実行するには、SSDが不可欠になっています。[SSD technology]がなければ、今ごろ相当苦労していたはずです。なので、その方向に進んでいます。
Jeniece: では、少し話題を変えて、データではなくAI について伺いたいのですが? 皆さん、何かしらAIを活用していると聞きますが、NASAではどのように取り組んでいるのでしょう[what you are doing]?
Laura: そうですね、私たちはどんなことをしているのか? 先ほどお話ししたように、4年前にPrismを導入した当初は、研究者たちが「よく分からないけど、とりあえず試してみよう」という状態でした。そのため、当初は日中のみのアクセスで、ただ「どう動くのか?」を試す段階でした。しかし時間が経つにつれ、実際にAIの処理を実行する研究者が増えてきました。トレーニングを行う人もいれば、推論を行う人もいます。その結果、現在ではGPU利用率は以前より格段に高くなっています。私たちはPrismの拡張も進めていて、NVIDIAのGrace Hoppe ノードを導入する予定です。約60ノードほど導入する見込みで、GPUを使う分野は大きく分けて2つあります。一つは、地球科学向けの基盤モデルの開発を含む機械学習分野。もう一つは、気候モデルのコードをGPU上で動くように変換する取り組み。こちらは、別のグループが担当しています。そして、HPCと機械学習を組み合わせた、[It’s]私のお気に入りの面白い話があるので紹介します。それは約2年前のことです。あるユーザーがやって来て、こう言いました。「トランジット法で惑星を探査する衛星ミッション(TESS)のテストデータがあるのですが」 彼らは連星を探していました。そこで何をするかというと、まず光度曲線を生成します。時間と共に光がどう変化するかを示すデータです。ほとんどの恒星では、光度曲線にはある一定のパターンがあります。そして、そのパターンを見ると、「これは連星だ!」と分かるのです。彼らはまず、私たちのスーパーコンピューターを使って、しばらく数字を確認していませんが、おそらく光度曲線は100万件以上あり、スーパーコンピューターによる膨大な計算時間が必要でした。次に、その光度曲線をすべてPrismに移し、機械学習をかけました。そして、外れ値を見つけ出したのです。その結果、彼らは多くの連星を発見しただけでなく、連星系とさらに別の連星系が組み合わさった珍しい系や、6つの恒星が重力で結びついている六重連星系と呼ばれるものも発見しました。その系には3組の連星があり、それぞれが互いに公転しているものです。その発見ができたのは、まずHPCで光度曲線を生成し、さらに機械学習で異常値を検出し、特に興味深い候補を絞り込むことができたからです。
Jeniece: 素晴らしいですね。これは新しい発見なのですか?
Laura: 新しいというほどではなくて、だいたい2年前。いや、2年半前くらいの発見ですね。
Jeniece: なるほど。でも天文学のスケールで言えば、かなり新しいですよね。本当に面白いです。ところで、このブラックホールのすごい画像についても伺いたいのですが、ここに[from Discover]と書かれていますよね?
Laura: はい。実はこれも同じグループによる成果なんです。私は天文学を専攻していますが、この研究は私[me]の専門範囲を少し超えていますので、技術的な説明はできません。でも、これはDiscover上で計算されたものです。動画を見ると、ぜひ見てほしいのですが、まるで自分自身がブラックホールの事象の地平面に吸い込まれていくような感覚を味わえます。もちろん実際にそんなことは絶対にしてはいけません。戻ってこれませんから!この映像はソーシャルメディアで大きく話題になり、瞬く間に広がりました。というのも、本当に魅力的な映像だったからです。そして、すべての計算はDiscover上で行われました。
Jeniece: 本当にありがとうございます。あなたのご尽力、そして組織全体の努力には心から感謝しています。素晴らしいお仕事だと思います。そしてLaura、あなたにお会いできて光栄でした。どうもありがとうございました。
Laura: ありがとうございます。