AIC Slurmサーバ（試験運用版）ユーザマニュアル

このマニュアルは、AIC（AIコンソーシアム）が提供する GPUサーバ（Slurm試験環境） の利用者のためのガイドです。
本サービスは試験運用中であり、利用条件・機能・構成は予告なく変更されることがあります。

不明点・要望・トラブル等については aic-server-group@keio.jp までご連絡ください。

利用の目的と範囲

本サーバは 教育・研究活動のためのGPU計算試験環境 として提供されます。
AIC講習参加者・インターンシップ生らによる、学習・研究目的での利用に限ります。
研究室・団体での共同アカウント使用は禁止です。

禁止事項

仮想通貨マイニング、分散演算、ゲームプレイ等
公開Webサービスの運用や外部からの常時アクセスを受けるサーバ構築
OSやネットワーク設定の変更・root権限操作

上記の行為が発覚した場合は、警告なしにアカウントを停止することがあります。

利用申請・アカウント

DGX計算機の利用申請 DGX計算機の利用にあたっては、JupyterHubのアカウントが必要です。JupyterHubの利用申請がお済みでない方は、以下のURLを参考に、ご登録をお願いします。

JupyterHubユーザマニュアル: https://keioaiconsortium.github.io/docs/jupyterhub_user_manual

DGXの利用申請は、以下のフォームから可能です。申請フォーム: https://forms.gle/in8MkCM5vLo7PwRL8 フォームの記入はkeio.jpアカウントのみに制限しています。

接続情報（SSH / ProxyJump）

計算資源は Slurmジョブスケジューラ により管理されています。
計算ノードに直接ログインしてGPUを占有することはできません。
ジョブは sbatch または srun を用いて投入してください。

ローカルPCの ~/.ssh/config に以下を追記します（踏み台経由 / ProxyJump）。

### KEIO-AIC ###
Host casper
  HostName casper.ai.hc.keio.ac.jp

Host nadeko
  HostName 172.16.0.18

Host casper nadeko
  IdentityFile ~/.ssh/<private_key_file>   # 使用する秘密鍵
  User <username>                           # 付与されたユーザー名
  Port 2222

Host nadeko
  ProxyJump casper

接続:

ssh nadeko

ファイル転送

作業ファイルのアップロードは scp を利用します（ホーム/共有領域は運用指針に従ってください）。

scp <local-file> <username>@nadeko:/share/<username>

パーティション設計（試験運用）

用途に応じて以下のパーティションを指定してください。

パーティション名	想定用途（例）
`gpu-short`	ハイパラ調整・コード動作確認など短時間ジョブ
`gpu-standard`	一般的な学習・推論
`gpu-strong`	大規模学習（長時間・多GPU想定）
`gpu-interactive`	対話的デバッグ・短時間実験（`srun --pty` など）

各パーティションには GPU数・メモリ・最大実行時間 の上限が設けられています。上限を超える指定はできません。

指定例：

# バッチ実行
sbatch --partition=gpu-standard job_script.sh

# 対話実行（シェルを割り当て）
srun --partition=gpu-interactive --pty bash

Slurmの基本コマンド

ジョブ投入

sbatch --partition=gpu-standard job_script.sh

ジョブ一覧（自分のジョブ）
```
squeue -u <username>
```
ジョブ取消
```
scancel <JOB_ID>
```
パーティションの確認
```
scontrol show partition
```

参考:

Summary（コマンド早見）: https://slurm.schedmd.com/pdfs/summary.pdf
sbatch 詳細: https://slurm.schedmd.com/sbatch.html

ジョブスクリプト例

#!/bin/bash
#SBATCH --job-name=memory_cpu_job
#SBATCH --partition=gpu-strong
#SBATCH --ntasks=1
#SBATCH --gres=gpu:4
#SBATCH --mem=64000MB
#SBATCH --cpus-per-task=16
#SBATCH --time=24:00:00
#SBATCH --output=output_mem_cpu_%j.txt

# 仮想環境の作成と有効化
python3 -m venv python_test
source python_test/bin/activate

# 依存パッケージの導入例
pip install torch torchvision torchaudio

# 実行コマンド
python3 large_model_training.py

主要オプション

--gres=gpu:<N>：利用するGPU枚数
--mem=<MB>：割当メモリ（MB）。不足時は OOM で失敗します
--cpus-per-task=<N>：タスクあたりのCPUコア数
--time=HH:MM:SS：最大実行時間（パーティション上限内で指定）
--output=...%j...：%j はジョブIDに置換

データ管理

ワーク領域（例：/share/<username>）を基本にご利用ください。
不要データは適宜削除し、ストレージ圧迫を避けてください。
試験環境のため、重要データは各自でバックアップ をお願いします。

セキュリティ上の注意

パスフレーズ付きのSSH鍵を利用し、使い回しは避けてください。
不審な挙動を検知した場合は速やかに aic-server-group@keio.jp へご連絡ください。
試験環境のため、障害・データ損失に対する補償はありません。

ログ・監視・運用ポリシー

GPU利用状況、CPU・メモリ使用量、ジョブキュー状態は運営が定期監視します。
不正利用・長時間アイドルが続くジョブは、運営判断で強制終了される場合があります。
利用ログは一定期間保管します。

サポート・問い合わせ

技術的な質問・障害報告・要望などは下記またはDiscordまでお願いします。

障害・緊急停止に関する報告
ソフトウェア追加の要望
Slurmジョブの挙動・設定に関する質問

連絡先：aic-server-group@keio.jp

免責事項

本サービスは試験運用中であり、無保証 で提供されます。
データ損失・障害発生・停電・メンテナンス等による影響について、運営チームは責任を負いません。
サービスの構成・提供期間・リソースは予告なく変更されることがあります。