ABCIシステムの概要
システム全体概要
ABCIシステムは、合計4,352基のNVIDIA V100 GPUアクセラレーターを備えた1,088台の計算ノード(V)と合計960基のNVIDIA A100 GPUアクセラレーターを備えた120台の計算ノード(A)を始めとする計算リソース、合算で約24.6 PBの容量を有する共有ファイルシステム及びABCIクラウドストレージ、これらを高速に結合するInfiniBandネットワーク、ファイアウォールなどからなるハードウェアと、これらを最大限活用するためのソフトウェアから構成されます。また、ABCIシステムは学術情報ネットワークSINET5を利用して、100 Gbpsでインターネットに接続しています。
ABCIシステムの主要な諸元は以下のとおりです。
項目 | 計算ノード(V) 合算性能・容量 | 計算ノード(A) 合算性能・容量 | 合算性能・容量 |
---|---|---|---|
理論ピーク演算性能 (FP64) | 37.2 PFLOPS | 19.3 PFLOPS | 56.6 PFLOPS |
HPLによる実効性能 | 19.88 PFLOPS1 | 11.48 PFLOPS | 22.20 PFLOPS2 |
HPLによる電力あたりの実効性能 | 14.423 GFLOPS/Watt | 21.89 GFLOPS/W | - |
理論ピーク演算性能 (FP32) | 75.0 PFLOPS | 151.0 PFLOPS | 226.0 PFLOPS |
理論ピーク演算性能 (FP16) | 550.6 PFLOPS | 300.8 PFLOPS | 851.5 PFLOPS |
理論ピーク演算性能 (INT8) | 261.1 POPS | 599.0 POPS | 860.1 POPS |
メモリ合算容量 | 476 TiB | 97.5 TiB | 573.5 TiB |
メモリ合算ピークバンド幅 | 4.19 PB/s | 1.54 PB/s | 5.73 PB/s |
ローカルストレージの合算容量 | 1,740 TB | 480 TB | 2,220 TB |
計算リソース
ABCIシステムの計算リソースの一覧を以下に示します。
項目 | ホスト名 | 説明 | ノード数 |
---|---|---|---|
アクセスサーバ | as.abci.ai | 外部からアクセスするためのSSHサーバ | 2 |
インタラクティブノード(V) | es | ABCIシステムのフロントエンドとなる計算ノード(V)向けログインサーバ | 2 |
インタラクティブノード(A) | es-a | ABCIシステムのフロントエンドとなる計算ノード(A)向けログインサーバ | 2 |
計算ノード(V) | g0001-g1088 | NVIDIA V100 GPUを搭載するサーバ | 1,088 |
計算ノード(A) | a0001-a0120 | NVIDIA A100 GPUを搭載するサーバ | 120 |
Note
以降の説明で、「インタラクティブノード」は、インタラクティブノード(V)とインタラクティブノード(A)の両方を指します。 同様に、「計算ノード」は、計算ノード(V)と計算ノード(A)の両方を指します。
Note
運用・保守上の合理的理由により、計算リソースの一部が提供されない場合があります。
Note
メモリインテンシブノードのサービスは、2023年10月27日15:00 をもって終了しました。
このうち、インタラクティブノード、計算ノード(V)はInfiniBand EDRを2ポート、計算ノード(A)はInfiniBand HDRを4ポート備えており、後述のストレージシステムとともに、InfiniBandスイッチにより接続されます。
以下ではこれらのノードの詳細を以下に示します。
インタラクティブノード
ABCIシステムでは、計算ノード(V), 計算ノード(A)という2種類の計算ノードを提供しています。各計算ノード向けプログラム開発の利便性を向上させるため、インタラクティブノード(V)、インタラクティブノード(A) という2種類のインタラクティブノードを提供しています。
各計算ノード向けアプリケーションのプログラム開発の際は、対応するインタラクティブノードを利用してください。なお、どちらのインタラクティブノードからも両方の計算ノードにジョブを投入することが可能です。
ABCIシステムのインタラクティブノードは、FUJITSU Server PRIMERGY RX2540 M4で構成されています。 Intel Xeon Gold 6148プロセッサーを2基搭載し、384 GiBのメインメモリが利用可能です。
インタラクティブノードの構成を以下に示します。
項目 | 説明 | 個数 |
---|---|---|
CPU | Intel Xeon Gold 6148 Processor 2.4 GHz, 20 Cores (40 Threads) | 2 |
Memory | 32 GiB DDR4 2666 MHz RDIMM (ECC) | 12 |
SSD | SAS-SSD 3.2 TB | 4 |
Interconnect | InfiniBand EDR (100 Gbps) | 2 |
10GBASE-SR | 2 |
ABCIシステムのフロントエンドであるインタラクティブノードには、アクセスサーバを経由したSSHトンネリングを用いてログインします。インタラクティブノードではコマンドの対話的実行が可能であり、プログラムの作成・編集、ジョブ投入・表示などを行います。インタラクティブノードにはGPUが搭載されていませんが、インタラクティブノードで計算ノード向けのプログラム開発も可能です。
ログイン方法の詳細はABCIの利用開始、ジョブ投入方法の詳細はジョブ実行をそれぞれ参照してください。
Warning
インタラクティブノードのCPUやメモリなどの資源は多くの利用者で共有するため、高負荷な処理は行わないようにしてください。高負荷な前処理、後処理を行う場合は、計算ノードを利用してください。 インタラクティブノードで高負荷な処理を行った場合、システムにより処理が強制終了されますのでご注意ください。
計算ノード
ABCIシステムの計算ノードは、計算ノード(V)と計算ノード(A)から構成されています。 計算ノード向けのプログラムを実行するには、バッチジョブもしくはインタラクティブジョブとしてジョブ管理システムに処理を依頼します。インタラクティブジョブでは、プログラムのコンパイルやデバッグ、対話的なアプリケーション、可視化ソフトウェアの実行が可能です。詳細はジョブ実行を参照してください。
計算ノード(V)
計算ノード(V)は、FUJITSU Server PRIMERGY CX2570 M4で構成されています。 計算ノード(V)は、Intel Xeon Gold 6148プロセッサーを2基、NVIDIA V100 GPUアクセラレーターを4基搭載しています。システム全体では、総CPUコア数は43,520コア、総GPU数は4,352基となります。
計算ノード(V)の構成を以下に示します。
項目 | 説明 | 個数 |
---|---|---|
CPU | Intel Xeon Gold 6148 Processor 2.4 GHz, 20 Cores (40 Threads) | 2 |
GPU | NVIDIA V100 for NVLink 16GiB HBM2 | 4 |
Memory | 32 GiB DDR4 2666 MHz RDIMM (ECC) | 12 |
NVMe SSD | Intel SSD DC P4600 1.6 TB u.2 | 1 |
Interconnect | InfiniBand EDR (100 Gbps) | 2 |
参考: 計算ノード(V)のブロック図
計算ノード(A)
計算ノード(A)は、FUJITSU Server PRIMERGY GX2570後継機で構成されています。 計算ノード(A)は、Intel Xeon Platinum 8360Yプロセッサーを2基、NVIDIA A100 GPUアクセラレーターを8基搭載しています。システム全体では、総CPUコア数は8,640コア、総GPU数は960基となります。
計算ノード(A)の構成を以下に示します。
項目 | 説明 | 個数 |
---|---|---|
CPU | Intel Xeon Platinum 8360Y Processor 2.4 GHz, 36 Cores (72 Threads) | 2 |
GPU | NVIDIA A100 for NVLink 40GiB HBM2 | 8 |
Memory | 32 GiB DDR4 3200 MHz RDIMM (ECC) | 16 |
NVMe SSD | Intel SSD DC P4510 2.0 TB u.2 | 2 |
Interconnect | InfiniBand HDR (200 Gbps) | 4 |
参考: 計算ノード(A)のブロック図
ストレージシステム
ABCIシステムは、人工知能やビッグデータ応用に用いる大容量データを格納するためのストレージシステムを4基備えており、これらを用いて共有ファイルシステム及びABCIクラウドストレージを提供しています。合算で最大24.6 PBの実効容量があります。
構成 | ストレージシステム | メディア | 用途 |
---|---|---|---|
1 | DDN ES400NVX2 x1 | 30.72 TB NVMe SSD x24 | ホーム領域(/home)、アプリケーション領域 |
2 | DDN ES7990X x3 DDN SS9012エンクロージャ x6 |
18 TB NL-SAS HDD x801 | グループ領域(/groups) |
3 | DDN ES400NVX x3 | 7.68 TB NVMe HDD x69 | 高速データ領域(/bb) |
4 | HPE Apollo 4510 Gen10 x24 | 12 TB SATA HDD x1440 | ABCIクラウドストレージ |
上記のストレージシステムを用いて、ABCIシステムが提供している共有ファイルシステム及びABCIクラウドストレージの一覧を以下に示します。
用途 | マウントポイント | 容量 | ファイルシステム | 備考 |
---|---|---|---|---|
ホーム領域 | /home | 0.5 PB | Lustre | ホーム領域を参照 |
グループ領域 | /groups | 10.8 PB | Lustre | グループ領域を参照 |
ABCIクラウドストレージ | 最大13 PB | ABCIクラウドストレージを参照 | ||
高速データ領域 | /bb | 0.3 PB | Lustre | 特定用途に予約済みの領域 |
グローバルスクラッチ領域 | /scratch | 0.1 PB (物理的には/bbに含まれます) | Lustre | グローバルスクラッチ領域を参照 |
インタラクティブノード、計算ノードは、共有ファイルシステムをマウントしており、利用者は共通のマウントポイントからこれらのファイルシステムにアクセスすることができます。
これ以外に、これらのノードはそれぞれローカルスクラッチ領域として利用可能なローカルストレージを搭載しています。以下に一覧を示します。
ノード種類 | マウントポイント | 容量 | ファイルシステム | 備考 |
---|---|---|---|---|
インタラクティブノード | /local | 12 TB | XFS | |
計算ノード(V) | /local | 1.6 TB | XFS | ローカルストレージを参照 |
計算ノード(A) | /local1 | 2.0 TB | XFS | ローカルストレージを参照 |
/local2 | 2.0 TB | XFS | ローカルストレージを参照 |
ソフトウェア
ABCIシステムで利用可能なソフトウェア一覧を以下に示します。
Category | Software | Interactive/Compute Node (V) Version | Interactive/Compute Node (A) Version |
---|---|---|---|
OS | Rocky Linux | 8.6 | - |
OS | Red Hat Enterprise Linux | - | 8.2 |
Job Scheduler | Altair Grid Engine | 8.6.19_C121_1 | 8.6.19_C121_1 |
Development Environment | CUDA Toolkit | 11.2.2 11.6.2 11.7.1 11.8.0 12.1.1 12.2.0 12.3.2 12.4.0 12.4.1 12.5.0 12.5.1 12.6.1 |
11.2.2 11.6.2 11.7.1 11.8.0 12.1.1 12.2.0 12.3.2 12.4.0 12.4.1 12.5.0 12.5.1 12.6.1 |
Intel oneAPI (compilers and libraries) |
2024.0.2 | 2024.0.2 | |
Intel VTune | 2024.0.0 | 2024.0.0 | |
Intel Trace Analyzer and Collector | 2022.0 | 2022.0 | |
Intel Inspector | 2024.0 | 2024.0 | |
Intel Advisor | 2024.0.0 | 2024.0.0 | |
GCC | 8.5.0 13.2.0 |
8.3.1 13.2.0 |
|
cmake | 3.29.0 | 3.29.0 | |
Python | 3.10.14 3.11.9 3.12.2 |
3.10.14 3.11.9 3.12.2 |
|
Ruby | 2.5.9-229 | 2.5.5-157 | |
R | 4.3.3 | 4.3.3 | |
Java | 1.8.0.422 11.0.24.0.8 17.0.12.0.7 |
1.8.0.422 11.0.24.0.8 17.0.12.0.7 |
|
Scala | 2.10.6 | 2.10.6 | |
Perl | 5.26.3 | 5.26.3 | |
Go | 1.22.2 | 1.22.2 | |
Julia | 1.10 | 1.10 | |
File System | DDN Lustre | 2.14.0_ddn134 | 2.14.0_ddn134 |
BeeOND | 7.3.3 | 7.3.3 | |
Object Storage | Scality S3 Connector | 7.10.6.7 | 7.10.6.7 |
Container | SingularityPRO | 4.1.2-2 | 4.1.2-2 |
Singularity Endpoint | 2.3.0 | 2.3.0 | |
MPI | Intel MPI | 2021.11 | 2021.11 |
Library | cuDNN | 8.1.1 8.3.3 8.4.1 8.6.0 8.7.0 8.8.1 8.9.7 9.0.0 9.1.1 9.2.1 9.3.0 9.4.0 |
8.1.1 8.3.3 8.4.1 8.6.0 8.7.0 8.8.1 8.9.7 9.0.0 9.1.1 9.2.1 9.3.0 9.4.0 |
NCCL | 2.8.4-1 2.11.4-1 2.12.12-1 2.13.4-1 2.14.3-1 2.15.5-1 2.16.2-1 2.17.1-1 2.18.5-1 2.19.3-1 2.20.5-1 2.21.5-1 2.22.3-1 |
2.8.4-1 2.11.4-1 2.12.12-1 2.13.4-1 2.14.3-1 2.15.5-1 2.16.2-1 2.17.1-1 2.18.5-1 2.19.3-1 2.20.5-1 2.21.5-1 2.22.3-1 |
|
gdrcopy | 2.4.1 | 2.4.1 | |
UCX | 1.10 | 1.11 | |
libfabric | 1.7.0-1 | 1.9.0rc1-1 | |
Intel MKL | 2024.0.0 | 2024.0.0 | |
Utility | aws-cli | 2.15.35 | 2.15.35 |
s3fs-fuse | 1.94 | 1.94 | |
rclone | 1.61.1 | 1.61.1 |