コンテンツにスキップ

既知の問題

日時 カテゴリ 内容 状況
2023/04/07 Job インタラクティブノード(V)よりジョブを投入した際、エラーメッセージ (configuration error - unknown item 'HOME_MODE' (notify administrator)) が出力されます。なお、ジョブの実行には問題ないと思われるためメッセージは無視願います。 2023/05/18
対応完了。エラーメッセージの出力は解消しました。
2023/01/31 Application Intel oneAPIにおいて脆弱性が確認されたため、コマンドicpx, icpcを利用不可に設定しております。

2023/02/06
脆弱性のあるIntel oneAPIがインストールされたディレクトリの実行権限を削除しました。
2023/02/03
対応完了。Intel oneAPIの脆弱性を修正したバージョンへアップデートしました。
なお、以前のバージョンでコンパイルされたプログラムについては、脆弱性が含まれている可能性があるため、お手数ですが新しいバージョンで再度コンパイルをお願いします。バージョン番号はシステム更新履歴を参照ください。

2023/02/06
脆弱性を含むintel/2022.0.2以前のIntel oneAPIモジュールは公開を停止しました。脆弱性が修正されたintel/2022.2.1モジュールをご利用ください。
以前のバージョンでコンパイルされたプログラムについては、公開停止モジュールをリンクしている場合、稼働しなくなります。お手数ですが新しいバージョンで再度コンパイルをお願いします。
2022/12/23 Application 計算ノード(A)環境において、cuDNN 8.7.0をCUDA 10.2で利用した場合に、cudnnConvolutionForward関数が失敗することを確認しています。 CUDA 11.xでcuDNN 8.7.0が利用できることを確認しています。計算ノード(A)環境でcuDNN 8.7.0を使用する場合はCUDA 11.xをご利用ください。
2022/12/13 Singularity Endpoint 12/13(火) メンテナンス作業後より、Singularityエンドポイントの一部機能(pullおよびRemote Build)の障害により、Singularityエンドポイントの運用を停止しております。 2023/01/05
対応完了。SingularityPROのアップデートにより事象は解消しました。
2022/06/13 Job 6/11 (土) 21:00~06/13 (月) 09:48 に計算ノード(A)(V)で下記の障害が発生しました。
• バッチジョブ新規実行不可
• すべての予約が消滅
バッチジョブの再投入をお願いします。予約の再作成をお願いします。
2022/06/21
対応完了。
2022/05/09 FileSystem Lustreファイルシステムにおいて、複数のスレッドが同一のファイルにほぼ同時に fallocate システムコールを発行した場合に、タイミングによりデッドロックが発生することを確認しています。
この問題によりホーム領域がアクセス不可となる現象が確認されています。
2022/06/21
Lustreのアップデートにより事象は解消しました。
2022/04/06 Singularity Remote Builderサービスの障害により、Singularity エンドポイントのリモートビルド機能が利用できません。
コンテナイメージの作成は、--fakeroot オプションをご利用ください。
なお、Singularity エンドポイントの Library, Keystore 機能は利用可能です。
2022/04/14
対応完了。Remote Builderサービスの障害は解消されました。
2022/04/06 Job ジョブスケジューラの障害のため、システム停止時にReservedサービスの予約が消える事象を確認しています。
事象が解消されるまで、メンテナンス作業後の期間に対する予約取得をお控えください。
2022/06/21
Altair Grid Engineのアップデートにより事象は解消しました。
2022/01/21 Application 計算ノード(A)上でintel-vtune/2020.3モジュールのvtuneの実行に失敗する事象を確認しています。 2022/04/06
Intel VTune のアップデートにより事象は解消しました。
2021/12/17 Application 計算ノード(A)上でpytorchとNCCLを使用する分散深層学習の実行に失敗する現象を確認しています。
回避策として、以下の環境変数をジョブスクリプト内で指定してください。
NCCL_IB_DISABLE=1
2022/03/03
対応完了。OFEDのアップデートを実施し、問題は解消されました。
2021/10/19 MPI 計算ノード(V)上のOpenMPI 3.1.6において、mpirunコマンドに-mca pml cmフラグを指定した場合に、MPI_Send/MPI_Recvで処理が止まり先に進まない現象を確認しています。 OpenMPI 3系はすでに非サポート状態のため、OpenMPI 4系を利用してください。
2021/07/06 Singularity Remote Builderサービスの障害により、リモートビルド機能が利用できません。 2021/07/21
対応完了。Remote Builder サービス内で発生していたネットワークの問題が解消されました。
2021/05/25 GPU 繰り返しGPUを使う場合にステータスがDまたはZでプロセスが残り、GPUメモリが解放されない現象が確認されています。その後にそのGPUを利用すると、GPUメモリが解放されていないため後続のプロセスが正常に実行されません。本事象を確認したらqa@abci.aiまでご連絡ください。 2021/08/12
対応完了。GPUメモリが解放されない問題は解消されました。
2021/05/17 MPI Open MPI 4.0.5にて、66ノード以上を使用したプログラム実行が異常終了することを確認しています。66ノード以上を使用する場合、MCAパラメータplm_rsh_no_tree_spawn trueおよびplm_rsh_num_concurrent $NHOSTSを指定してプログラムを実行してください。

$ mpirun -mca plm_rsh_no_tree_spawn true -mca plm_rsh_num_concurrent $NHOSTS ./a.out
2021/05/31
対応完了。これらMCAパラメータのデフォルト値を変更しました。
2020/09/30 Singularity 以下のセキュリティ問題が報告されています。インタラクティブノードや、Full以外の資源タイプでSingularityPROを使用する時に影響を受けます。更新するまでは、SingularityPROはFull計算タイプでご利用ください。

CVE-2020-25039
CVE-2020-25040
2020/10/09
対応完了。問題が修正されている 3.5-4 へアップデートしました。
2020/01/14 Cloud Storage 他グループに ACL で write許可設定したバケットにて、他グループがオブジェクトを作成・削除した場合、課金計算が正しく行われません。 2020/04/03
対応完了。問題が修正されたバージョンにアップデートしました。
2019/11/14 Cloud Storage オブジェクトストレージの不具合により、マルチパートに分割して保存されたオブジェクトの上書き時または削除時に以下のエラーメッセージが出力されます。
[上書き時] upload failed: object to s3://mybucket/object An error occurred (None) when calling the CompleteMultipartUpload operation: undefined
[削除時] delete failed: s3://mybucket/object An error occurred (None) when calling the DeleteObject operation: undefined

AWS CLI の s3 コマンドを使用した場合、サイズの大きなファイルはマルチパート分割されます。サイズの大きなファイルを扱う場合、こちらを参照し multipart_threshold を大きな値に設定ください。
2019/12/17
対応完了。マルチパートアップロードでサイズの大きなファイルのアップロードが可能になりました。
2019/10/04 MPI MVPICH2-GDR 2.3.2のMPI_Allreduceにて、GPUメモリ間での通信を行った際、以下のノード数、GPU数、メッセージサイズの組み合わせでfloating point exceptionが発生することを確認しています。
Nodes: 28, GPU/Node: 4, Message size: 256KB
Nodes: 30, GPU/Node: 4, Message size: 256KB
Nodes: 33, GPU/Node: 4, Message size: 256KB
Nodes: 34, GPU/Node: 4, Message size: 256KB
2020/04/21
対応完了。問題が修正されたバージョンにアップデートしました。
2019/04/10 Job ジョブスケジューラのアップデート(8.5.4 -> 8.6.3)に伴い、以下のジョブ投入オプションは引数が必須になりました。
リソースタイプ(-l rt_F等)
$ qsub -g GROUP -l rt_F=1
$ qsub -g GROUP -l rt_G.small=1
対応完了
2019/04/10 Job ジョブスケジューラのアップデート(8.5.4 -> 8.6.3)に伴い、以下のジョブ投入オプションは引数が必須になりました。BEEOND使用する場合は、-l USE_BEEONDオプションに"1"を省略せず指定してください。
BEEOND 実行 (-l USE_BEEOND)
$ qsub -g GROUP -l rt_F=2 -l USE_BEEOND=1
対応完了
2019/04/05 Job 通常計算ノードで rt_C.small/rt_G.small はそれぞれ最大で4ジョブまで実行されますが、ジョブスケジューラの不具合により、それぞれ最大2ジョブまでしか実行できない事象が発生しています。
Reservedサービスでも同様の事象が発生しており、rt_C.small/rt_G.small を使用の場合はご注意ください。
$ qsub -ar ARID -l rt_G.small=1 -g GROUP run.sh (x 3回)
$ qstat
job-ID prior name user state
--------
478583 0.25586 sample.sh username r
478584 0.25586 sample.sh username r
478586 0.25586 sample.sh username qw
2019/10/04
対応完了