PCCC AI/HPC OSS活用ワークショップ

日時 2024年2月5日(月)13:30~17:00(庭園見学は13:00~13:30)
開催形式 現地(定員30名)とZoomによるオンラインのハイブリッド形式
現地会場 株式会社日立製作所 中央研究所 協創棟 1F NEXPERIENCEスペース
〒185-0014 東京都国分寺市東恋ケ窪1丁目280
(JR中央線 国分寺駅 北口 徒歩約10分)
主催

PCクラスタコンソーシアム

  • ・HPCオープンソースソフトウェア普及部会
  • ・実用アプリケーション部会

(株)日立製作所 研究開発グループ

参加費 無料(登録が必要です。現地参加の場合お名刺を2枚用意ください)

参加登録受付は終了しました。

開催趣旨

本ワークショップでは、AI/HPCのソフトウェア基盤として普及している、オープンソースソフトウェアの実際の活用事例の紹介と質疑応答を行います。OSSが企業内やアカデミックのシステムでどのように実用されているかを共有することでAI/HPC OSSの活用促進を図ります。

プログラム

12:45~13:00

正門にて受付

13:00~13:30

希望者は庭園見学

13:30~13:45

オープニング

13:45~14:10

講演1

「Arm CPU搭載サーバを用いた量子コンピュータシミュレーション用クラスタの構築と運用」

大辻 弘貴(富士通)

講演概要を開く

2022年度に1056ノードのArm CPU搭載サーバ(FUJITSU Supercomputer PRIMEHPC FX700)を用いて量子コンピュータのシミュレーションを行うためのクラスタシステムを構築し、今も富士通社内で運用を続けている。本システムはOS・ジョブスケジューラ・並列ファイルシステム・MPIなどほぼすべての要素をOSSで構成している。講演では本システムの構築及び運用で得られたノウハウや、ワークロードに最適化するための技術的な工夫を紹介する。

14:10~14:35

講演2

「NECのAI研究用スーパーコンピュータにおけるOSS活用事例」

北野 貴稔 (日本電気株式会社)

講演概要を開く

NECでは、AI研究用スーパーコンピューターを2022年3月から部分稼働を開始し、2023年3月から928基のA100 GPUの全面稼働を開始している。本AIスパコンは、Kubernetesを中心としたGPUクラスタとして、基本的に全てをOSSで構成している。Kubernetesの拡張や運用・監視ツールは、全てGo言語を用いて開発しており、その取り組みを紹介する。

14:35~15:00

講演3

「日立研究開発グループのAI/HPCシステムにおけるOSS活用事例」

清水 正明(日立製作所)

講演概要を開く

日立製作所研究開発グループでは、AIクラスタ、HPCクラスタ、Kubernetes、GitLabをそれぞれOSSで構築して運用している。概要と運用から得た知見を紹介する。

15:00~15:10 休憩
15:10~15:35

講演4

「『富岳』の運用を支えるOSS活用事例」

山本 啓二 (理化学研究所R-CCS)

講演概要を開く

「富岳」では様々なOSSを活用して運用を行っているが、その中でも特に有用であったOSSについて活用事例を紹介する。

15:35~16:00

講演5

「ABCI-Qの挑戦:量子・AIハイブリッド技術のテストベッド構築と共通ライブラリ整備」

高野 了成(産業技術総合研究所)

講演概要を開く

2025年に運用開始を予定している量子・AIハイブリッドクラウド基盤ABCI-Qの構想と、量子・AIハイブリッド技術を活用した共通ライブラリの整備、及びその持続的な維持管理体制の確立に向けた試みについて紹介する。

16:00~16:25

講演6

「GPU移行における可搬性向上に向けて」

塙 敏博、三木洋平(東京大学 情報基盤センター)

講演概要を開く

本講演では、既存の実アプリケーションをGPU化する際に直面する可搬性の問題として、指示文の選択とファイルIOに対する解決策について現在実施している取り組みを紹介する。
GPU向けの指示文としてOpenACCがよく使われているが,事実上NVIDIA GPU専用である。一方 OpenMP 4.5以降で利用可能なtarget指示文であればHPC向けGPUの全てに対応しているため、OpenMP targetを使いたいという需要もある。そこで両者に簡便に対応できるようなマクロを試作中で、OSSとして公開を予定している。ファイルIOについては、演算処理はGPUにオフロードしても、IOはホストに戻して実行されており、実アプリケーションとしてボトルネックになるケースがある。NVIDIA GPUでは,GPUDirect Storage(GDS)によってホストCPU上のメモリを介さず直接ファイルIOが可能になる。実アプリケーションで広く使われているファイルIOライブラリHDF5 でも既にプラグインで利用可能だが、性能改善を実施中である。GDSを用いた際の性能特性や実際のコード改変量についても述べる。

16:25~16:50

講演7

「TSUBAMEシリーズを使いやすくするためのソフトウェア運用」

野村 哲弘 (東京工業大学 学術国際情報センター)

講演概要を開く

東京工業大学では、2017年8月から運用を続けてきたスーパーコンピュータTSUBAME3.0の運用を今年度末で終了し、4月からは新しいスパコンTSUBAME4.0の運用を開始する。本講演では、スケジューラやコンテナ仮想化ソフトウェアなどの、スパコンの裏側でその利用を支えてきたシステムソフトウェアに着目し、TSUBAMEシリーズを通じてどのような機能を実現するために、OSSおよびプロプライエタリソフトウェアをどう選択し、運用してきたかについて報告する。

16:50~17:00 質疑応答、クロージング

※終了後、懇親会(会費5000円程度、会場詳細は別途ご案内します)