コンテンツにスキップ

ABCIシステムの概要

システム全体概要

ABCIシステムは、合計4,352基のNVIDIA V100 GPUアクセラレーターを備えた1,088台の計算ノード(V)と合計960基のNVIDIA A100 GPUアクセラレーターを備えた120台の計算ノード(A)を始めとする計算リソース、合算で約24.6 PBの容量を有する共有ファイルシステム及びABCIクラウドストレージ、これらを高速に結合するInfiniBandネットワーク、ファイアウォールなどからなるハードウェアと、これらを最大限活用するためのソフトウェアから構成されます。また、ABCIシステムは学術情報ネットワークSINET5を利用して、100 Gbpsでインターネットに接続しています。

ABCI System Overview

ABCIシステムの主要な諸元は以下のとおりです。

項目 計算ノード(V) 合算性能・容量 計算ノード(A) 合算性能・容量 合算性能・容量
理論ピーク演算性能 (FP64) 37.2 PFLOPS 19.3 PFLOPS 56.6 PFLOPS
HPLによる実効性能 19.88 PFLOPS1 11.48 PFLOPS 22.20 PFLOPS2
HPLによる電力あたりの実効性能 14.423 GFLOPS/Watt 21.89 GFLOPS/W -
理論ピーク演算性能 (FP32) 75.0 PFLOPS 151.0 PFLOPS 226.0 PFLOPS
理論ピーク演算性能 (FP16) 550.6 PFLOPS 300.8 PFLOPS 851.5 PFLOPS
理論ピーク演算性能 (INT8) 261.1 POPS 599.0 POPS 860.1 POPS
メモリ合算容量 476 TiB 97.5 TiB 573.5 TiB
メモリ合算ピークバンド幅 4.19 PB/s 1.54 PB/s 5.73 PB/s
ローカルストレージの合算容量 1,740 TB 480 TB 2,220 TB

計算リソース

ABCIシステムの計算リソースの一覧を以下に示します。

項目 ホスト名 説明 ノード数
アクセスサーバ as.abci.ai 外部からアクセスするためのSSHサーバ 2
インタラクティブノード(V) es ABCIシステムのフロントエンドとなる計算ノード(V)向けログインサーバ 2
インタラクティブノード(A) es-a ABCIシステムのフロントエンドとなる計算ノード(A)向けログインサーバ 2
計算ノード(V) g0001-g1088 NVIDIA V100 GPUを搭載するサーバ 1,088
計算ノード(A) a0001-a0120 NVIDIA A100 GPUを搭載するサーバ 120

Note

以降の説明で、「インタラクティブノード」は、インタラクティブノード(V)とインタラクティブノード(A)の両方を指します。 同様に、「計算ノード」は、計算ノード(V)と計算ノード(A)の両方を指します。

Note

運用・保守上の合理的理由により、計算リソースの一部が提供されない場合があります。

Note

メモリインテンシブノードのサービスは、2023年10月27日15:00 をもって終了しました。

このうち、インタラクティブノード、計算ノード(V)はInfiniBand EDRを2ポート、計算ノード(A)はInfiniBand HDRを4ポート備えており、後述のストレージシステムとともに、InfiniBandスイッチにより接続されます。

以下ではこれらのノードの詳細を以下に示します。

インタラクティブノード

ABCIシステムでは、計算ノード(V), 計算ノード(A)という2種類の計算ノードを提供しています。各計算ノード向けプログラム開発の利便性を向上させるため、インタラクティブノード(V)、インタラクティブノード(A) という2種類のインタラクティブノードを提供しています。

各計算ノード向けアプリケーションのプログラム開発の際は、対応するインタラクティブノードを利用してください。なお、どちらのインタラクティブノードからも両方の計算ノードにジョブを投入することが可能です。

ABCIシステムのインタラクティブノードは、FUJITSU Server PRIMERGY RX2540 M4で構成されています。 Intel Xeon Gold 6148プロセッサーを2基搭載し、384 GiBのメインメモリが利用可能です。

インタラクティブノードの構成を以下に示します。

項目 説明 個数
CPU Intel Xeon Gold 6148 Processor 2.4 GHz, 20 Cores (40 Threads) 2
Memory 32 GiB DDR4 2666 MHz RDIMM (ECC) 12
SSD SAS-SSD 3.2 TB 4
Interconnect InfiniBand EDR (100 Gbps) 2
10GBASE-SR 2

ABCIシステムのフロントエンドであるインタラクティブノードには、アクセスサーバを経由したSSHトンネリングを用いてログインします。インタラクティブノードではコマンドの対話的実行が可能であり、プログラムの作成・編集、ジョブ投入・表示などを行います。インタラクティブノードにはGPUが搭載されていませんが、インタラクティブノードで計算ノード向けのプログラム開発も可能です。

ログイン方法の詳細はABCIの利用開始、ジョブ投入方法の詳細はジョブ実行をそれぞれ参照してください。

Warning

インタラクティブノードのCPUやメモリなどの資源は多くの利用者で共有するため、高負荷な処理は行わないようにしてください。高負荷な前処理、後処理を行う場合は、計算ノードを利用してください。 インタラクティブノードで高負荷な処理を行った場合、システムにより処理が強制終了されますのでご注意ください。

計算ノード

ABCIシステムの計算ノードは、計算ノード(V)と計算ノード(A)から構成されています。 計算ノード向けのプログラムを実行するには、バッチジョブもしくはインタラクティブジョブとしてジョブ管理システムに処理を依頼します。インタラクティブジョブでは、プログラムのコンパイルやデバッグ、対話的なアプリケーション、可視化ソフトウェアの実行が可能です。詳細はジョブ実行を参照してください。

計算ノード(V)

計算ノード(V)は、FUJITSU Server PRIMERGY CX2570 M4で構成されています。 計算ノード(V)は、Intel Xeon Gold 6148プロセッサーを2基、NVIDIA V100 GPUアクセラレーターを4基搭載しています。システム全体では、総CPUコア数は43,520コア、総GPU数は4,352基となります。

計算ノード(V)の構成を以下に示します。

項目 説明 個数
CPU Intel Xeon Gold 6148 Processor 2.4 GHz, 20 Cores (40 Threads) 2
GPU NVIDIA V100 for NVLink 16GiB HBM2 4
Memory 32 GiB DDR4 2666 MHz RDIMM (ECC) 12
NVMe SSD Intel SSD DC P4600 1.6 TB u.2 1
Interconnect InfiniBand EDR (100 Gbps) 2

参考: 計算ノード(V)のブロック図

計算ノード(A)

計算ノード(A)は、FUJITSU Server PRIMERGY GX2570後継機で構成されています。 計算ノード(A)は、Intel Xeon Platinum 8360Yプロセッサーを2基、NVIDIA A100 GPUアクセラレーターを8基搭載しています。システム全体では、総CPUコア数は8,640コア、総GPU数は960基となります。

計算ノード(A)の構成を以下に示します。

項目 説明 個数
CPU Intel Xeon Platinum 8360Y Processor 2.4 GHz, 36 Cores (72 Threads) 2
GPU NVIDIA A100 for NVLink 40GiB HBM2 8
Memory 32 GiB DDR4 3200 MHz RDIMM (ECC) 16
NVMe SSD Intel SSD DC P4510 2.0 TB u.2 2
Interconnect InfiniBand HDR (200 Gbps) 4

参考: 計算ノード(A)のブロック図

ストレージシステム

ABCIシステムは、人工知能やビッグデータ応用に用いる大容量データを格納するためのストレージシステムを4基備えており、これらを用いて共有ファイルシステム及びABCIクラウドストレージを提供しています。合算で最大24.6 PBの実効容量があります。

構成 ストレージシステム メディア 用途
1 DDN ES400NVX2 x1 30.72 TB NVMe SSD x24 ホーム領域(/home)、アプリケーション領域
2 DDN ES7990X x3
DDN SS9012エンクロージャ x6
18 TB NL-SAS HDD x801 グループ領域(/groups)
3 DDN ES400NVX x3 7.68 TB NVMe HDD x69 高速データ領域(/bb)
4 HPE Apollo 4510 Gen10 x24 12 TB SATA HDD x1440 ABCIクラウドストレージ

上記のストレージシステムを用いて、ABCIシステムが提供している共有ファイルシステム及びABCIクラウドストレージの一覧を以下に示します。

用途 マウントポイント 容量 ファイルシステム 備考
ホーム領域 /home 0.5 PB Lustre ホーム領域を参照
グループ領域 /groups 10.8 PB Lustre グループ領域を参照
ABCIクラウドストレージ 最大13 PB ABCIクラウドストレージを参照
高速データ領域 /bb 0.3 PB Lustre 特定用途に予約済みの領域
グローバルスクラッチ領域 /scratch 0.1 PB (物理的には/bbに含まれます) Lustre グローバルスクラッチ領域を参照

インタラクティブノード、計算ノードは、共有ファイルシステムをマウントしており、利用者は共通のマウントポイントからこれらのファイルシステムにアクセスすることができます。

これ以外に、これらのノードはそれぞれローカルスクラッチ領域として利用可能なローカルストレージを搭載しています。以下に一覧を示します。

ノード種類 マウントポイント 容量 ファイルシステム 備考
インタラクティブノード /local 12 TB XFS
計算ノード(V) /local 1.6 TB XFS ローカルストレージを参照
計算ノード(A) /local1 2.0 TB XFS ローカルストレージを参照
/local2 2.0 TB XFS ローカルストレージを参照

ソフトウェア

ABCIシステムで利用可能なソフトウェア一覧を以下に示します。

Category Software Interactive/Compute Node (V) Version Interactive/Compute Node (A) Version
OS Rocky Linux 8.6 -
OS Red Hat Enterprise Linux - 8.2
Job Scheduler Altair Grid Engine 8.6.19_C121_1 8.6.19_C121_1
Development Environment CUDA Toolkit 11.2.2
11.6.2
11.7.1
11.8.0
12.1.1
12.2.0
12.3.2
12.4.0
12.4.1
12.5.0
12.5.1
12.6.1
11.2.2
11.6.2
11.7.1
11.8.0
12.1.1
12.2.0
12.3.2
12.4.0
12.4.1
12.5.0
12.5.1
12.6.1
Intel oneAPI
(compilers and libraries)
2024.0.2 2024.0.2
Intel VTune 2024.0.0 2024.0.0
Intel Trace Analyzer and Collector 2022.0 2022.0
Intel Inspector 2024.0 2024.0
Intel Advisor 2024.0.0 2024.0.0
GCC 8.5.0
13.2.0
8.3.1
13.2.0
cmake 3.29.0 3.29.0
Python 3.10.14
3.11.9
3.12.2
3.10.14
3.11.9
3.12.2
Ruby 2.5.9-229 2.5.5-157
R 4.3.3 4.3.3
Java 1.8.0.422
11.0.24.0.8
17.0.12.0.7
1.8.0.422
11.0.24.0.8
17.0.12.0.7
Scala 2.10.6 2.10.6
Perl 5.26.3 5.26.3
Go 1.22.2 1.22.2
Julia 1.10 1.10
File System DDN Lustre 2.14.0_ddn134 2.14.0_ddn134
BeeOND 7.3.3 7.3.3
Object Storage Scality S3 Connector 7.10.6.7 7.10.6.7
Container SingularityPRO 4.1.2-2 4.1.2-2
Singularity Endpoint 2.3.0 2.3.0
MPI Intel MPI 2021.11 2021.11
Library cuDNN 8.1.1
8.3.3
8.4.1
8.6.0
8.7.0
8.8.1
8.9.7
9.0.0
9.1.1
9.2.1
9.3.0
9.4.0
8.1.1
8.3.3
8.4.1
8.6.0
8.7.0
8.8.1
8.9.7
9.0.0
9.1.1
9.2.1
9.3.0
9.4.0
NCCL 2.8.4-1
2.11.4-1
2.12.12-1
2.13.4-1
2.14.3-1
2.15.5-1
2.16.2-1
2.17.1-1
2.18.5-1
2.19.3-1
2.20.5-1
2.21.5-1
2.22.3-1
2.8.4-1
2.11.4-1
2.12.12-1
2.13.4-1
2.14.3-1
2.15.5-1
2.16.2-1
2.17.1-1
2.18.5-1
2.19.3-1
2.20.5-1
2.21.5-1
2.22.3-1
gdrcopy 2.4.1 2.4.1
UCX 1.10 1.11
libfabric 1.7.0-1 1.9.0rc1-1
Intel MKL 2024.0.0 2024.0.0
Utility aws-cli 2.15.35 2.15.35
s3fs-fuse 1.94 1.94
rclone 1.61.1 1.61.1