ABCIシステムの概要
システム全体概要
ABCIシステムは、合計6,128基のNVIDIA H200 GPUアクセラレーターを備えた766台の計算ノード(H)を始めとする計算リソース、物理容量75PBのストレージ、これらを高速に結合するInfiniBandネットワーク、ファイアウォールなどからなるハードウェアと、これらを最大限活用するためのソフトウェアから構成されます。また、ABCIシステムは学術情報ネットワークSINET6を利用して、400 Gbpsでインターネットに接続しています。
計算リソース
ABCIシステムの計算リソースの一覧を以下に示します。
項目 | ホスト名 | 説明 | ノード数 |
---|---|---|---|
アクセスサーバ | as.v3.abci.ai | 外部からアクセスするためのSSHサーバ | 2 |
インタラクティブノード | login | ABCIシステムのフロントエンドとなるログインサーバ | 5 |
計算ノード(H) | hnode001-hnode766 | NVIDIA H200 GPUを搭載するサーバ | 766 |
Note
運用・保守上の合理的理由により、計算リソースの一部が提供されない場合があります。
このうち、インタラクティブノードと計算ノード(H)は、それぞれInfiniBand HDR (200 Gbps)を備えており、後述のストレージシステムにInfiniBandスイッチを介して接続されます。 また、計算ノード(H)は追加でInfiniBand NDR (200 Gbps)を8ポート備えており、計算ノード(H)間がInfiniBandスイッチにより接続されます。
以下ではこれらのノードの詳細を示します。
インタラクティブノード
ABCIシステムのインタラクティブノードは、HPE ProLiant DL380 Gen11で構成されています。 Intel Xeon Platinum 8468プロセッサーを2基搭載し、約1024 GBのメインメモリが利用可能です。
インタラクティブノードの構成を以下に示します。
項目 | 説明 | 個数 |
---|---|---|
CPU | Intel Xeon Platinum 8468 Processor 2.1 GHz, 48 Cores | 2 |
Memory | 64 GB DDR5-4800 | 16 |
SSD | SAS SSD 960 GB | 2 |
SSD | NVMe SSD 3.2 TB | 4 |
Interconnect | InfiniBand HDR (200 Gbps) | 2 |
10GBASE-SR | 1 |
ABCIシステムのフロントエンドであるインタラクティブノードには、アクセスサーバを経由したSSHトンネリングを用いてログインします。インタラクティブノードではコマンドの対話的実行が可能であり、プログラムの作成・編集、ジョブ投入・表示などを行います。インタラクティブノードにはGPUが搭載されていませんが、インタラクティブノードで計算ノード向けのプログラム開発も可能です。
ログイン方法の詳細はABCIの利用開始、ジョブ投入方法の詳細はジョブ実行をそれぞれ参照してください。
Warning
インタラクティブノードのCPUやメモリなどの資源は多くの利用者で共有するため、高負荷な処理は行わないようにしてください。高負荷な前処理、後処理を行う場合は、計算ノードを利用してください。 インタラクティブノードで高負荷な処理を行った場合、システムにより処理が強制終了されますのでご注意ください。
計算ノード
計算ノード向けのプログラムを実行するには、バッチジョブもしくはインタラクティブジョブとしてジョブ管理システムに処理を依頼します。インタラクティブジョブでは、プログラムのコンパイルやデバッグ、対話的なアプリケーション、可視化ソフトウェアの実行が可能です。詳細はジョブ実行を参照してください。
計算ノード(H)
計算ノード(H)は、HPE Cray XD670で構成されています。 計算ノード(H)は、Intel Xeon Platinum 8558プロセッサーを2基、NVIDIA H200 GPUアクセラレーターを8基搭載しています。システム全体では、総CPUコア数は73,536コア、総GPU数は6,128基となります。
計算ノード(H)の構成を以下に示します。
項目 | 説明 | 個数 |
---|---|---|
CPU | Intel Xeon Platinum 8558 2.1GHz, 48cores | 2 |
GPU | NVIDIA H200 SXM 141GB | 8 |
Memory | 64 GB DDR5-5600 4400 MHz | 32 |
SSD | NVMe SSD 7.68 TB | 2 |
Interconnect | InfiniBand NDR (200 Gbps) | 8 |
InfiniBand HDR (200 Gbps) | 1 | |
10GBASE-SR | 1 |
ストレージシステム
ABCIシステムは、人工知能やビッグデータ応用に用いる大容量データを格納するためのストレージシステムを3基備えており、これらを用いて共有ファイルシステムを提供しています。下記の/home、 /groupsおよび今後に提供予定のストレージの合算で約75 PBの実効容量があります。
構成 | ストレージシステム | メディア | 用途 |
---|---|---|---|
1 | DDN ES400NVX2 | 61.44TB NVMe SSD x256 | ホーム領域(/home) |
2 | DDN ES400NVX2 | 61.44TB NVMe SSD x1280 | グループ領域(/groups) |
上記のストレージシステムを用いて、ABCIシステムが提供している共有ファイルシステムの一覧を以下に示します。
用途 | マウントポイント | 実効容量 | ファイルシステム | 備考 |
---|---|---|---|---|
ホーム領域 | /home | 10 PB | Lustre | |
グループ領域 | /groups | 63 PB | Lustre |
データ移行目的のために、下記のファイルシステムがマウントされています。
用途 | マウントポイント | 実効容量 | ファイルシステム | 備考 |
---|---|---|---|---|
アーカイブ | /home-2.0 | 0.5 PB | Lustre | 読み取り専用。ABCI 2.0で利用されていたホーム領域 |
アーカイブ | /groups-2.0 | 10.8 PB | Lustre | 読み取り専用。ABCI 2.0で利用されていたグループ領域 |
インタラクティブノード、計算ノードは、共有ファイルシステムをマウントしており、利用者は共通のマウントポイントからこれらのファイルシステムにアクセスすることができます。
これ以外に、これらのノードはそれぞれローカルスクラッチ領域として利用可能なローカルストレージを搭載しています。以下に一覧を示します。
ノード種類 | マウントポイント | 容量 | ファイルシステム | 備考 |
---|---|---|---|---|
インタラクティブノード | /local | 12 TB | XFS | |
計算ノード(H) | /local1 | 7 TB | XFS | |
/local2 | 7 TB | XFS | BeeGFS含む |
ソフトウェア
ABCIシステムで利用可能なソフトウェア一覧を以下に示します。
Category | Software | Interactive Node | Compute Node |
---|---|---|---|
OS | Rocky Linux | - | 9.4 |
OS | Red Hat Enterprise Linux | 9.4 | - |
Job Scheduler | Altair PBS Professional | 2022.1.6 | 2022.1.6 |
Development Environment | CUDA Toolkit | 11.8.0 12.0.1 12.1.1 12.2.2 12.3.2 12.4.1 12.5.1 12.6.1 |
11.8.0 12.0.1 12.1.1 12.2.2 12.3.2 12.4.1 12.5.1 12.6.1 |
Intel oneAPI (compilers and libraries) |
2024.2.1 | 2024.2.1 | |
Python | 3.9.18 | 3.9.18 | |
Ruby | 3.0.4 | 3.0.4 | |
R | 4.4.1 | 4.4.1 | |
Java | 11.0.22.0.7 | 11.0.23.0.9 | |
Scala | 3.5.2 | 3.5.2 | |
Perl | 5.32.1 | 5.32.1 | |
Go | 1.21.7 | 1.21.9 | |
File System | DDN Lustre | 2.14.0_ddn172 | 2.14.0_ddn172 |
BeeOND | - | 7.4.5 | |
Object Storage | s3cmd | 2.4.0 | 2.4.0 |
Container | SingularityCE | 4.1.5 | 4.1.5 |
MPI | Intel MPI | 2021.13 | 2021.13 |
Library | cuDNN | 9.5.1 | 9.5.1 |
NCCL | 2.23.4-1 | 2.23.4-1 | |
gdrcopy | 2.4.1 | 2.4.1 | |
UCX | 1.17 | 1.17 | |
Intel MKL | 2024.2.1 | 2024.2.1 | |
Utility | aws-cli | 1.29.62 | 1.29.62 |
s3fs-fuse | 1.94 | 1.94 | |
rclone | 1.57.0 | 1.57.0 |