1. Introdução

1.1. Cluster Sismom

O cluster Sismom é um cluster multiusuário com compute-nodes de CPU e GPU. Abaixo segue a lista e configuração dos servidores disponíveis no cluster.

Especificação dos servidores disponíveis no cluster

Hostname

Função

Cores/threads

Memória (GB)

# GPUs (Mem)

sismom-1

headnode/compute-node

256/512

128

sismom-2

compute-node

256/512

128

sismon-xd670

compute-node

112/224

2048

8 H200 (141GB)

Importante

O servidor sismon-1 deve ser usado apenas para pequenos comandos, ele deve ser usado para processamento através do SLURM. Por favor, use o SLURM (batch ou interativo) para suas tarefas.

1.2. Acesso

O acesso ao cluster é feito apenas pelo servidor sismon-1, através do protocolo SSH.

Nota

No primeiro acesso do usuário, o cluster gera automaticamente um par de chaves SSH, visando simplificar a execução de aplicações paralelas baseadas em MPI.

1.3. Sistema de fila (SLURM)

Algumas informações sobre o SLURM.

  • O acesso aos nodes só é permitido através do sistema de fila SLURM.

  • As configurações do SLURM poderão sofrer alterações, sem aviso prévio, a fim de facilitar o uso ou gerenciamento.

  • Para facilitar, atualmente existem duas filas:

    • cpuq: compute-nodes apenas com CPUs

    • gpuq: compute-nodes com GPUs

1.4. Configuração

  • CUDA drivers

Os compute-nodes com GPUs da NVIDIA já possuem os drivers instalados e configurados.

  • CUDA Toolkit

A maior demanda de utilização dos compute-nodes com GPUs é para uso com Inteligência Artificial. Esses nós computacionais não possuem o CUDA Toolkit instalado. Recomenda-se, por usar o CUDA dentro dos containers, pois permite uma maior flexibilidade. Dessa forma, os nós de processamento com GPUs terão apenas os drivers instalados.

  • Container

O cluster não possui o docker instalado, deve-se usar o apptainer que também é chamado de singularity. Para aplicações com GPUs, recomenda-se o uso dos containers da própria NVIDIA que está disponível neste link. Alguns containers já estão disponíveis no diretório /sw/containers do cluster Sismom.

Nota

apptainer é o nome do singularity dentro do projeto da Linux Foundation. Logo, pode-se usar tanto o comando apptainer como singularity.

1.5. Áreas em disco

O cluster possui as seguintes áreas em disco que são compartilhadas por todo o cluster.

  • /home/users: área de usuários $HOME

  • /sw: área de softwares, containers, modulefiles etc.

  • /data[1-4]: área de dados

O servidor XD670 está equipado com oito (8) GPUs NVIDIA H200. Para suportar a taxa de transferência exigida pelas GPUs, o nó foi configurado com duas áreas de scratch de baixa latência e alto IOPS, acessíveis via /scratch1 e /scratch2. Estas áreas utilizam discos NVMe dedicados.

Atenção

Os containers são projetados para serem imutáveis e seu tamanho pode variar de poucos megabytes (MB) a gigabytes (GB). Devido a essa característica e visando a eficiência do armazenamento e a consistência da execução, é altamente recomendável que os containers sejam compartilhados entre os nós e entre os usuários.

Sugerimos utilizar o diretório /sw/containers como o ponto de armazenamento centralizado, pois esta área é acessível e compartilhada por todo o cluster.