1. Introdução
1.1. Cluster Sismom
O cluster Sismom é um cluster multiusuário com compute-nodes de CPU e GPU. Abaixo segue a lista e configuração dos servidores disponíveis no cluster.
Hostname |
Função |
Cores/threads |
Memória (GB) |
# GPUs (Mem) |
|---|---|---|---|---|
sismom-1 |
headnode/compute-node |
256/512 |
128 |
|
sismom-2 |
compute-node |
256/512 |
128 |
|
sismon-xd670 |
compute-node |
112/224 |
2048 |
8 H200 (141GB) |
Importante
O servidor sismon-1 deve ser usado apenas para pequenos comandos, ele deve
ser usado para processamento através do SLURM.
Por favor, use o SLURM (batch ou interativo) para suas tarefas.
1.2. Acesso
O acesso ao cluster é feito apenas pelo servidor sismon-1, através do protocolo SSH.
Nota
No primeiro acesso do usuário, o cluster gera automaticamente um par de chaves SSH,
visando simplificar a execução de aplicações paralelas baseadas em MPI.
1.3. Sistema de fila (SLURM)
Algumas informações sobre o SLURM.
O acesso aos nodes só é permitido através do sistema de fila SLURM.
As configurações do SLURM poderão sofrer alterações, sem aviso prévio, a fim de facilitar o uso ou gerenciamento.
Para facilitar, atualmente existem duas filas:
cpuq: compute-nodes apenas com CPUsgpuq: compute-nodes com GPUs
1.4. Configuração
CUDA drivers
Os compute-nodes com GPUs da NVIDIA já possuem os drivers instalados e configurados.
CUDA Toolkit
A maior demanda de utilização dos compute-nodes com GPUs é para uso com Inteligência Artificial. Esses nós computacionais não possuem o CUDA Toolkit instalado. Recomenda-se, por usar o CUDA dentro dos containers, pois permite uma maior flexibilidade. Dessa forma, os nós de processamento com GPUs terão apenas os drivers instalados.
Container
O cluster não possui o docker instalado, deve-se usar o apptainer que
também é chamado de singularity. Para aplicações com GPUs, recomenda-se o uso dos
containers da própria NVIDIA que está disponível neste
link. Alguns containers já estão disponíveis no
diretório /sw/containers do cluster Sismom.
Nota
apptainer é o nome do singularity dentro do projeto da Linux Foundation.
Logo, pode-se usar tanto o comando apptainer como singularity.
1.5. Áreas em disco
O cluster possui as seguintes áreas em disco que são compartilhadas por todo o cluster.
/home/users: área de usuários$HOME/sw: área de softwares, containers, modulefiles etc./data[1-4]: área de dados
O servidor XD670 está equipado com oito (8) GPUs NVIDIA H200. Para suportar a taxa de
transferência exigida pelas GPUs, o nó foi configurado com duas áreas de scratch de baixa
latência e alto IOPS, acessíveis via /scratch1 e /scratch2. Estas áreas utilizam
discos NVMe dedicados.
Atenção
Os containers são projetados para serem imutáveis e seu tamanho pode variar de poucos megabytes (MB) a gigabytes (GB). Devido a essa característica e visando a eficiência do armazenamento e a consistência da execução, é altamente recomendável que os containers sejam compartilhados entre os nós e entre os usuários.
Sugerimos utilizar o diretório /sw/containers como o ponto de armazenamento centralizado,
pois esta área é acessível e compartilhada por todo o cluster.