コンテンツにスキップ

ABCIシステムの概要

システム全体概要

ABCIシステムは、合計4,352基のNVIDIA V100 GPUアクセラレーターを備えた1,088台の計算ノード(V)と合計960基のNVIDIA A100 GPUアクセラレーターを備えた120台の計算ノード(A)を始めとする計算リソース、合算で約47 PBの容量を有する共有ファイルシステム及びABCIクラウドストレージ、これらを高速に結合するInfiniBandネットワーク、ファイアウォールなどからなるハードウェアと、これらを最大限活用するためのソフトウェアから構成されます。また、ABCIシステムは学術情報ネットワークSINET5を利用して、100 Gbpsでインターネットに接続しています。

ABCI System Overview

ABCIシステムの主要な諸元は以下のとおりです。

項目 計算ノード(V) 合算性能・容量 計算ノード(A) 合算性能・容量 合算性能・容量
理論ピーク演算性能 (FP64) 37.2 PFLOPS 19.3 PFLOPS 56.6 PFLOPS
HPLによる実効性能 19.88 PFLOPS1 11.48 PFLOPS 22.20 PFLOPS2
HPLによる電力あたりの実効性能 14.423 GFLOPS/Watt 21.89 GFLOPS/W -
理論ピーク演算性能 (FP32) 75.0 PFLOPS 151.0 PFLOPS 226.0 PFLOPS
理論ピーク演算性能 (FP16) 550.6 PFLOPS 300.8 PFLOPS 851.5 PFLOPS
理論ピーク演算性能 (INT8) 261.1 POPS 599.0 POPS 860.1 POPS
メモリ合算容量 476 TiB 97.5 TiB 573.5 TiB
メモリ合算ピークバンド幅 4.19 PB/s 1.54 PB/s 5.73 PB/s
ローカルストレージの合算容量 1,740 TB 480 TB 2,220 TB

計算リソース

ABCIシステムの計算リソースの一覧を以下に示します。

項目 ホスト名 説明 ノード数
アクセスサーバ as.abci.ai 外部からアクセスするためのSSHサーバ 2
インタラクティブノード(V) es ABCIシステムのフロントエンドとなる計算ノード(V)向けログインサーバ 2
インタラクティブノード(A) es-a ABCIシステムのフロントエンドとなる計算ノード(A)向けログインサーバ 2
計算ノード(V) g0001-g1088 NVIDIA V100 GPUを搭載するサーバ 1,088
計算ノード(A) a0001-a0120 NVIDIA A100 GPUを搭載するサーバ 120
メモリインテンシブノード m01-m10 Intel Optaneメモリを搭載するサーバ 10

Note

以降の説明で、「インタラクティブノード」は、インタラクティブノード(V)とインタラクティブノード(A)の両方を指します。 同様に、「計算ノード」は、計算ノード(V)と計算ノード(A)の両方を指します。

Note

運用・保守上の合理的理由により、計算リソースの一部が提供されない場合があります。

このうち、インタラクティブノード、計算ノード(V)、メモリインテンシブノードはInfiniBand EDRを2ポート、計算ノード(A)はInfiniBand HDRを4ポート備えており、後述のストレージシステムとともに、InfiniBandスイッチにより接続されます。

以下ではこれらのノードの詳細を以下に示します。

インタラクティブノード

ABCIシステムでは、計算ノード(V), 計算ノード(A)という2種類の計算ノードを提供しています。各計算ノード向けプログラム開発の利便性を向上させるため、インタラクティブノード(V)、インタラクティブノード(A) という2種類のインタラクティブノードを提供しています。

各計算ノード向けアプリケーションのプログラム開発の際は、対応するインタラクティブノードを利用してください。なお、どちらのインタラクティブノードからも両方の計算ノードにジョブを投入することが可能です。

ABCIシステムのインタラクティブノードは、FUJITSU Server PRIMERGY RX2540 M4で構成されています。 Intel Xeon Gold 6148プロセッサーを2基搭載し、384 GiBのメインメモリが利用可能です。

インタラクティブノードの構成を以下に示します。

項目 説明 個数
CPU Intel Xeon Gold 6148 Processor 2.4 GHz, 20 Cores (40 Threads) 2
Memory 32 GiB DDR4 2666 MHz RDIMM (ECC) 12
SSD SAS-SSD 3.2 TB 4
Interconnect InfiniBand EDR (100 Gbps) 2
10GBASE-SR 2

ABCIシステムのフロントエンドであるインタラクティブノードには、アクセスサーバを経由したSSHトンネリングを用いてログインします。インタラクティブノードではコマンドの対話的実行が可能であり、プログラムの作成・編集、ジョブ投入・表示などを行います。インタラクティブノードにはGPUが搭載されていませんが、インタラクティブノードで計算ノード向けのプログラム開発も可能です。

ログイン方法の詳細はABCIの利用開始、ジョブ投入方法の詳細はジョブ実行をそれぞれ参照してください。

Warning

インタラクティブノードのCPUやメモリなどの資源は多くの利用者で共有するため、高負荷な処理は行わないようにしてください。高負荷な前処理、後処理を行う場合は、計算ノードを利用してください。 インタラクティブノードで高負荷な処理を行った場合、システムにより処理が強制終了されますのでご注意ください。

計算ノード

ABCIシステムの計算ノードは、計算ノード(V)と計算ノード(A)から構成されています。 計算ノード向けのプログラムを実行するには、バッチジョブもしくはインタラクティブジョブとしてジョブ管理システムに処理を依頼します。インタラクティブジョブでは、プログラムのコンパイルやデバッグ、対話的なアプリケーション、可視化ソフトウェアの実行が可能です。詳細はジョブ実行を参照してください。

計算ノード(V)

計算ノード(V)は、FUJITSU Server PRIMERGY CX2570 M4で構成されています。 計算ノード(V)は、Intel Xeon Gold 6148プロセッサーを2基、NVIDIA V100 GPUアクセラレーターを4基搭載しています。システム全体では、総CPUコア数は43,520コア、総GPU数は4,352基となります。

計算ノード(V)の構成を以下に示します。

項目 説明 個数
CPU Intel Xeon Gold 6148 Processor 2.4 GHz, 20 Cores (40 Threads) 2
GPU NVIDIA V100 for NVLink 16GiB HBM2 4
Memory 32 GiB DDR4 2666 MHz RDIMM (ECC) 12
NVMe SSD Intel SSD DC P4600 1.6 TB u.2 1
Interconnect InfiniBand EDR (100 Gbps) 2

参考: 計算ノード(V)のブロック図

計算ノード(A)

計算ノード(A)は、FUJITSU Server PRIMERGY GX2570後継機で構成されています。 計算ノード(A)は、Intel Xeon Platinum 8360Yプロセッサーを2基、NVIDIA A100 GPUアクセラレーターを8基搭載しています。システム全体では、総CPUコア数は8,640コア、総GPU数は960基となります。

計算ノード(A)の構成を以下に示します。

項目 説明 個数
CPU Intel Xeon Platinum 8360Y Processor 2.4 GHz, 36 Cores (72 Threads) 2
GPU NVIDIA A100 for NVLink 40GiB HBM2 8
Memory 32 GiB DDR4 3200 MHz RDIMM (ECC) 16
NVMe SSD Intel SSD DC P4510 2.0 TB u.2 2
Interconnect InfiniBand HDR (200 Gbps) 4

参考: 計算ノード(A)のブロック図

メモリインテンシブノード

ABCIシステムのメモリインテンシブノードは、Supermicro 4029GR-TRT2で構成されています。 メモリインテンシブノードは、Intel Xeon Gold 6132プロセッサーを2基、Intel Optane メモリを2基搭載し、メインメモリと合わせて最大2.6 TiBのメモリを利用可能です。

メモリインテンシブノードの構成を以下に示します。

項目 説明 個数
CPU Intel Xeon Gold 6132 Processor 2.6 GHz, 14 Cores (28 Threads) 2
Memory 32 GiB DDR4 2666 MHz RDIMM (ECC) 24
SSD Intel SSD DC S4500 1.9 TB 1
Optane SSD Intel Optane SSD DC P4800X 1.5 TB 2
Interconnect InfiniBand EDR (100 Gbps) 2

メモリインテンシブノード向けのプログラムを実行するには、計算ノードと同様に、バッチジョブもしくはインタラクティブジョブとしてジョブ管理システムに処理を依頼します。

ストレージシステム

ABCIシステムは、人工知能やビッグデータ応用に用いる大容量データを格納するためのストレージシステムを5基備えており、これらを用いて共有ファイルシステム及びABCIクラウドストレージを提供しています。合算で最大47 PBの実効容量があります。

構成 ストレージシステム メディア 用途
1 DDN SFA 14KX x1
DDN SS9012エンクロージャ x5
7.68 TB SAS SSD x185 ホーム領域、アプリケーション領域
2 DDN ES7990X x3
DDN SS9012エンクロージャ x6
18 TB NL-SAS HDD x801 グループ領域
3 DDN ES400NVX x3 7.68 TB NVMe HDD x69 高速データ領域
4 DDN SFA 14KX x3
DDN SS8462エンクロージャ x30
3.84 TB SAS SSD x216
12 TB NL-SAS HDD x2400
グループ領域
5 HPE Apollo 4510 Gen10 x24 12 TB SATA HDD x1440 ABCIクラウドストレージ

上記のストレージシステムを用いて、ABCIシステムが提供している共有ファイルシステム及びABCIクラウドストレージの一覧を以下に示します。

用途 マウントポイント 容量 ファイルシステム 備考
ホーム領域 /home 1.0 PB Lustre ホーム領域を参照
グループ領域 /groups 10.8 PB Lustre グループ領域を参照
グループ領域1 /fs1 7.2 PB GPFS グループ領域を参照
グループ領域2 /fs2 7.2 PB GPFS グループ領域を参照
グループ領域3 /fs3 7.2 PB GPFS 特定用途に予約済みの領域
ABCIクラウドストレージ 最大13 PB ABCIクラウドストレージを参照
高速データ領域 /bb 0.3 PB Lustre 特定用途に予約済みの領域

インタラクティブノード、計算ノード、メモリインテンシブノードは、共有ファイルシステムをマウントしており、利用者は共通のマウントポイントからこれらのファイルシステムにアクセスすることができます。 但し、グループ領域1〜3は、計算ノード(A)からはアクセスできません。

これ以外に、これらのノードはそれぞれローカルスクラッチ領域として利用可能なローカルストレージを搭載しています。以下に一覧を示します。

ノード種類 マウントポイント 容量 ファイルシステム 備考
インタラクティブノード /local 12 TB XFS
計算ノード(V) /local 1.6 TB XFS ローカルストレージを参照
計算ノード(A) /local1 2.0 TB XFS ローカルストレージを参照
/local2 2.0 TB XFS ローカルストレージを参照
メモリインテンシブノード /local 1.9 TB XFS ローカルストレージを参照

ソフトウェア

ABCIシステムで利用可能なソフトウェア一覧を以下に示します。

Category Software Interactive/Compute Node (V) Version Interactive/Compute Node (A) Version
OS CentOS 7.5 -
OS Red Hat Enterprise Linux - 8.2
Job Scheduler Univa Grid Engine 8.6.17 8.6.17
Development Environment CUDA Toolkit 8.0.61.2
9.0.176.4
9.1.85.3
9.2.88.1
9.2.148.1
10.0.130.1
10.1.243
10.2.89
11.0.3
11.1.1
11.2.2
10.0.130.1
10.1.243
10.2.89
11.0.3
11.1.1
11.2.2
NVIDIA HPC SDK 20.11
21.2
20.11
21.2
PGI Professional Edition 20.4 20.4
Intel Parallel Studio XE Cluster Edition
(compilers and libraries)
2020 update 4 (2020.4.304) 2020 update 4 (2020.4.304)
Intel VTune 2020.3 2020.3
Intel Trace Analyzer and Collector 2020.0.3 2020.0.3
Intel Inspector 2020.3 2020.3
Intel Advisor 2020.3 2020.3
GCC 4.8.5
7.4.0
9.3.0
7.4.0
8.3.1
9.3.0
cmake 3.11.4
3.19
3.11.4
3.19
Python 2.7.18
3.6.12
3.7.10
3.8.7
2.7.18
3.6.12
3.7.10
3.8.7
Ruby 2.0.0.648-33 2.5.5-105
R 4.0.4 4.0.4
Java 1.7.0_171
1.8.0_242
11.0.6_10
1.8.0.242
11.0.6.10
15.0.2.0.7
Scala 2.12.6 2.10.6
Lua 5.3.6
5.4.2
5.3.6
5.4.2
Perl 5.16.3 5.26.3
Go 1.14
1.15
1.14
1.15
Julia 1.0
1.5
1.0
1.5
Hadoop 3.3 3.3
Spark 3.0 3.0
File System DDN Lustre 2.12.5_ddn13-1 2.12.5_ddn13-1
DDN GRIDScaler 4.2.3-20 -
BeeOND 7.2.3 7.2.3
Object Storage Scality S3 Connector 7.4.8.1 7.4.8.1
Container Docker 19.03.15 19.03.15
SingularityPRO 3.7-4 3.7-4
MPI Open MPI 2.1.6
3.1.6
4.0.5
2.1.6
3.1.6
4.0.5
MVAPICH2 2.3.5 2.3.5
MVAPICH2-GDR 2.3.5 -
Intel MPI 2019.9 2019.9
Library cuDNN 5.1.10
6.0.21
7.0.5
7.1.4
7.2.1
7.3.1
7.4.2
7.5.1
7.6.5
8.0.5
8.1.1
8.2.0
8.2.1
7.3.1
7.4.2
7.5.1
7.6.5
8.0.5
8.1.1
8.2.0
8.2.1
NCCL 1.3.5-1
2.1.15-1
2.2.13-1
2.3.7-1
2.4.8-1
2.5.6-1
2.6.4-1
2.7.8-1
2.8.4-1
2.9.6-1
2.9.9-1
2.3.7-1
2.4.8-1
2.5.6-1
2.6.4-1
2.7.8-1
2.8.4-1
2.9.6-1
2.9.9-1
gdrcopy 2.0 2.1
UCX 1.7.0 1.9.0
libfabric 1.7.0-1 1.9.0rc1-1
Intel MKL 2020.0.4 2020.0.4
Utility aws-cli 2.1 2.1
fuse-sshfs 3.7.1 3.7.1
s3fs-fuse 1.87 1.87
sregistry-cli 0.2.36 0.2.36