Skip to content

ABCIシステムの概要

システム全体概要

ABCIシステムは、合計6,128基のNVIDIA H200 GPUアクセラレーターを備えた766台の計算ノード(H)を始めとする計算リソース、物理容量75PBのストレージ、これらを高速に結合するInfiniBandネットワーク、ファイアウォールなどからなるハードウェアと、これらを最大限活用するためのソフトウェアから構成されます。また、ABCIシステムは学術情報ネットワークSINET6を利用して、400 Gbpsでインターネットに接続しています。

計算リソース

ABCIシステムの計算リソースの一覧を以下に示します。

項目 ホスト名 説明 ノード数
アクセスサーバ as.v3.abci.ai 外部からアクセスするためのSSHサーバ 2
インタラクティブノード login ABCIシステムのフロントエンドとなるログインサーバ 5
計算ノード(H) hnode001-hnode766 NVIDIA H200 GPUを搭載するサーバ 766

Note

運用・保守上の合理的理由により、計算リソースの一部が提供されない場合があります。

このうち、インタラクティブノードと計算ノード(H)は、それぞれInfiniBand HDR (200 Gbps)を備えており、後述のストレージシステムにInfiniBandスイッチを介して接続されます。 また、計算ノード(H)は追加でInfiniBand NDR (200 Gbps)を8ポート備えており、計算ノード(H)間がInfiniBandスイッチにより接続されます。

以下ではこれらのノードの詳細を示します。

インタラクティブノード

ABCIシステムのインタラクティブノードは、HPE ProLiant DL380 Gen11で構成されています。 Intel Xeon Platinum 8468プロセッサーを2基搭載し、約1024 GBのメインメモリが利用可能です。

インタラクティブノードの構成を以下に示します。

項目 説明 個数
CPU Intel Xeon Platinum 8468 Processor 2.1 GHz, 48 Cores 2
Memory 64 GB DDR5-4800 16
SSD SAS SSD 960 GB 2
SSD NVMe SSD 3.2 TB 4
Interconnect InfiniBand HDR (200 Gbps) 2
10GBASE-SR 1

ABCIシステムのフロントエンドであるインタラクティブノードには、アクセスサーバを経由したSSHトンネリングを用いてログインします。インタラクティブノードではコマンドの対話的実行が可能であり、プログラムの作成・編集、ジョブ投入・表示などを行います。インタラクティブノードにはGPUが搭載されていませんが、インタラクティブノードで計算ノード向けのプログラム開発も可能です。

ログイン方法の詳細はABCIの利用開始、ジョブ投入方法の詳細はジョブ実行をそれぞれ参照してください。

Warning

インタラクティブノードのCPUやメモリなどの資源は多くの利用者で共有するため、高負荷な処理は行わないようにしてください。高負荷な前処理、後処理を行う場合は、計算ノードを利用してください。 インタラクティブノードで高負荷な処理を行った場合、システムにより処理が強制終了されますのでご注意ください。

計算ノード

計算ノード向けのプログラムを実行するには、バッチジョブもしくはインタラクティブジョブとしてジョブ管理システムに処理を依頼します。インタラクティブジョブでは、プログラムのコンパイルやデバッグ、対話的なアプリケーション、可視化ソフトウェアの実行が可能です。詳細はジョブ実行を参照してください。

計算ノード(H)

計算ノード(H)は、HPE Cray XD670で構成されています。 計算ノード(H)は、Intel Xeon Platinum 8558プロセッサーを2基、NVIDIA H200 GPUアクセラレーターを8基搭載しています。システム全体では、総CPUコア数は73,536コア、総GPU数は6,128基となります。

計算ノード(H)の構成を以下に示します。

項目 説明 個数
CPU Intel Xeon Platinum 8558 2.1GHz, 48cores 2
GPU NVIDIA H200 SXM 141GB 8
Memory 64 GB DDR5-5600 4400 MHz 32
SSD NVMe SSD 7.68 TB 2
Interconnect InfiniBand NDR (200 Gbps) 8
InfiniBand HDR (200 Gbps) 1
10GBASE-SR 1

ストレージシステム

ABCIシステムは、人工知能やビッグデータ応用に用いる大容量データを格納するためのストレージシステムを3基備えており、これらを用いて共有ファイルシステムを提供しています。下記の/home、 /groupsおよび今後に提供予定のストレージの合算で約75 PBの実効容量があります。

構成 ストレージシステム メディア 用途
1 DDN ES400NVX2 61.44TB NVMe SSD x256 ホーム領域(/home)
2 DDN ES400NVX2 61.44TB NVMe SSD x1280 グループ領域(/groups)

上記のストレージシステムを用いて、ABCIシステムが提供している共有ファイルシステムの一覧を以下に示します。

用途 マウントポイント 実効容量 ファイルシステム 備考
ホーム領域 /home 10 PB Lustre
グループ領域 /groups 63 PB Lustre

データ移行目的のために、下記のファイルシステムがマウントされています。

用途 マウントポイント 実効容量 ファイルシステム 備考
アーカイブ /home-2.0 0.5 PB Lustre 読み取り専用。ABCI 2.0で利用されていたホーム領域
アーカイブ /groups-2.0 10.8 PB Lustre 読み取り専用。ABCI 2.0で利用されていたグループ領域

インタラクティブノード、計算ノードは、共有ファイルシステムをマウントしており、利用者は共通のマウントポイントからこれらのファイルシステムにアクセスすることができます。

これ以外に、これらのノードはそれぞれローカルスクラッチ領域として利用可能なローカルストレージを搭載しています。以下に一覧を示します。

ノード種類 マウントポイント 容量 ファイルシステム 備考
インタラクティブノード /local 12 TB XFS
計算ノード(H) /local1 7 TB XFS
/local2 7 TB XFS BeeGFS含む

ソフトウェア

ABCIシステムで利用可能なソフトウェア一覧を以下に示します。

Category Software Interactive Node Compute Node
OS Rocky Linux - 9.4
OS Red Hat Enterprise Linux 9.4 -
Job Scheduler Altair PBS Professional 2022.1.6 2022.1.6
Development Environment CUDA Toolkit 11.8.0
12.0.1
12.1.1
12.2.2
12.3.2
12.4.1
12.5.1
12.6.1
11.8.0
12.0.1
12.1.1
12.2.2
12.3.2
12.4.1
12.5.1
12.6.1
Intel oneAPI
(compilers and libraries)
2024.2.1 2024.2.1
Python 3.9.18 3.9.18
Ruby 3.0.4 3.0.4
R 4.4.1 4.4.1
Java 11.0.22.0.7 11.0.23.0.9
Scala 3.5.2 3.5.2
Perl 5.32.1 5.32.1
Go 1.21.7 1.21.9
File System DDN Lustre 2.14.0_ddn172 2.14.0_ddn172
BeeOND - 7.4.5
Object Storage s3cmd 2.4.0 2.4.0
Container SingularityCE 4.1.5 4.1.5
MPI Intel MPI 2021.13 2021.13
Library cuDNN 9.5.1 9.5.1
NCCL 2.23.4-1 2.23.4-1
gdrcopy 2.4.1 2.4.1
UCX 1.17 1.17
Intel MKL 2024.2.1 2024.2.1
Utility aws-cli 1.29.62 1.29.62
s3fs-fuse 1.94 1.94
rclone 1.57.0 1.57.0