1. Introdução 

1.1. Cluster Sismom 

O cluster Sismom é um cluster multiusuário com compute-nodes de CPU e GPU. Abaixo segue a lista e configuração dos servidores disponíveis no cluster.

Especificação dos servidores disponíveis no cluster
Hostname	Função	Cores/threads	Memória (GB)	# GPUs (Mem)
sismom-1	headnode/compute-node	256/512	128
sismom-2	compute-node	256/512	128
sismon-xd670	compute-node	112/224	2048	8 H200 (141GB)

Importante

O servidor sismon-1 deve ser usado apenas para pequenos comandos, ele deve ser usado para processamento através do SLURM. Por favor, use o SLURM (batch ou interativo) para suas tarefas.

1.2. Acesso 

O acesso ao cluster é feito apenas pelo servidor sismon-1, através do protocolo SSH.

Nota

No primeiro acesso do usuário, o cluster gera automaticamente um par de chaves SSH, visando simplificar a execução de aplicações paralelas baseadas em MPI.

1.3. Sistema de fila (SLURM)

Algumas informações sobre o SLURM.

O acesso aos nodes só é permitido através do sistema de fila SLURM.
As configurações do SLURM poderão sofrer alterações, sem aviso prévio, a fim de facilitar o uso ou gerenciamento.
Para facilitar, atualmente existem duas filas:
- cpuq: compute-nodes apenas com CPUs
- gpuq: compute-nodes com GPUs

1.4. Configuração 

CUDA drivers

Os compute-nodes com GPUs da NVIDIA já possuem os drivers instalados e configurados.

CUDA Toolkit

A maior demanda de utilização dos compute-nodes com GPUs é para uso com Inteligência Artificial. Esses nós computacionais não possuem o CUDA Toolkit instalado. Recomenda-se, por usar o CUDA dentro dos containers, pois permite uma maior flexibilidade. Dessa forma, os nós de processamento com GPUs terão apenas os drivers instalados.

Container

O cluster não possui o docker instalado, deve-se usar o apptainer que também é chamado de singularity. Para aplicações com GPUs, recomenda-se o uso dos containers da própria NVIDIA que está disponível neste link. Alguns containers já estão disponíveis no diretório /sw/containers do cluster Sismom.

Nota

apptainer é o nome do singularity dentro do projeto da Linux Foundation. Logo, pode-se usar tanto o comando apptainer como singularity.

1.5. Áreas em disco 

O cluster possui as seguintes áreas em disco que são compartilhadas por todo o cluster.

/home/users: área de usuários $HOME
/sw: área de softwares, containers, modulefiles etc.
/data[1-4]: área de dados

O servidor XD670 está equipado com oito (8) GPUs NVIDIA H200. Para suportar a taxa de transferência exigida pelas GPUs, o nó foi configurado com duas áreas de scratch de baixa latência e alto IOPS, acessíveis via /scratch1 e /scratch2. Estas áreas utilizam discos NVMe dedicados.

Atenção

Os containers são projetados para serem imutáveis e seu tamanho pode variar de poucos megabytes (MB) a gigabytes (GB). Devido a essa característica e visando a eficiência do armazenamento e a consistência da execução, é altamente recomendável que os containers sejam compartilhados entre os nós e entre os usuários.

Sugerimos utilizar o diretório /sw/containers como o ponto de armazenamento centralizado, pois esta área é acessível e compartilhada por todo o cluster.

1. Introdução

1.1. Cluster Sismom

1.2. Acesso