FAQ

1 – Quais são os serviços que a seção de HPC do CCJDR provê?

– Suporte na utilização de clusters e equipamentos de cálculo científico;
– Suporte na compilação e execução de softwares nos clusters e equipamentos de cálculo científico;
– Consultoria e levantamento técnico na compra de novos equipamentos e softwares para HPC;
– Descritivo computacional para projetos de fomento;
– Analises de desempenho de códigos, pacotes de software e bibliotecas;
– Analise de desempenho de software entre arquitetura de computadores;
– Paralelização de códigos;
– Manutenção e instalação de clusters (juntamente com a equipe de suporte do CCJDR).

 

2 – Posso executar processos diretamente no headnode?

Não deve-se utilizar o headnode para rodar processos. Sempre utilize o sistema de filas para submetê-los através do comando qsub. No headnode é apenas permitido executar:
– compilação de programas;
– shell scripts que não façam uso intensivo dos cores de processamento;
– aplicativos em geral, como: top, scp, sftp, ssh, etc.

 

3 – Como utilizo os compiladores da Intel (ifort, icc, icpc)?

Para fazer uso dos compiladores da Intel deve-se inserir a linha abaixo no arquivo de submissão do job (atente-se que a linha começa com um ponto (.) seguida de um espaço).

. /home/sw/intel/bin/compilervars.sh intel64

 

4 – Como crio um arquivo de submissão?

Crie um arquivo através de um editor de texto, como por exemplo o vim:
vim nomedoarquivo

Nos links abaixo, há exemplos de arquivos de submissão de cada um dos clusters. Copie e cole no arquivo criado, mudando apenas os parâmetros que dizem respeito ao seu job e usuário.

Planck: https://sites.ifi.unicamp.br/cluster-planck/filas-de-processamento/exemplos-de-arquivos/

Feynman: https://sites.ifi.unicamp.br/hpc/clusters/feynman/filasutilizacao/

 

5 – Como eu verifico um código de erro retornado pelo sistema de filas Torque/Maui?

https://www.ersa.edu.au/pbs_exitcodes

 

6 – Como acessar o cluster ou máquina de cálculo?

Para acesso quando conectado na rede do IFGW, em computadores conectados à rede, utilizando Linux ou Mac OS, abra um terminal e digite:

ssh usuario@nomedocluster.ifi.unicamp.br

ou

ssh usuario@nomedocomputador.ifi.unicamp.br

Para acesso externo (fora do IFGW):
Abra um terminal e conecte-se ao gateway do IFGW, digitando:
ssh usuario@gate.ifi.unicamp.br

Estando conectado ao Gateway, conecte-se ao cluster desejado, digitando:
ssh usuario@nomedocluster

ou

ssh usuario@nomedamaquina

Caso esteja utilizando Windows, a conexão será através do aplicativo Putty.
Para acesso interno (dentro da Unicamp) preencha os campos:
Hostname: nomedocluster.ifi.unicamp.br
ou
Hostname: nomedamaquina.ifi.unicamp.br
Port: 22
Connection type: SSH
Em seguida clique no botão OPEN.

Para acesso externo (fora da Unicamp):
Hostname: usuario@gate.ifi.unicamp.br
Port: 22
Connection type: SSH
Em seguida clique no botão OPEN. Digite a senha de acesso à Gate. A partir daí, conecte-se ao cluster desejado através do comando:
ssh usuario@nomedocluster
ou
ssh usuario@nomedamaquina

 

7 – Como posso instalar um software em minha área de trabalho no cluster?

Você pode instalar livremente softwares em sua área de trabalho. Caso necessite de alguma biblioteca ou dependência específica, abra um chamado para a equipe de HPC através do link: http://os.ifi.unicamp.br/
É importante ressaltar que o usuário é responsável legalmente pelas licenças dos softwares que utiliza.

 

8 – Posso submeter um job interativamente?

Sim, basta digitar o comando:
qsub -I -q nomedafila -lnodes=numerodenodes:ppn=numerodecpus

Neste caso, o qsub não será fechado como usualmente acontece, mas, indicará que está esperando por um processador para atribuir ao seu job. Quando o processador ou um nó computacional estiver disponível, o terminal será liberado. A partir daí você poderá executar seu programa e outros comandos interativamente.
Caso o terminal não seja liberado, significa que a fila não possui nodes livres e você deverá esperar a liberação. Caso decida não esperar para que um processador esteja disponível, você pode abortar o job pressionando as teclas “control+C” (apertando a tecla Control juntamente com a tecla C).

 

9 – Como transferir arquivos entre os clusters e máquinas externas?

Para acessar externamente (fora da Unicamp) o cluster, faça da seguinte forma:

Utilizando Terminal Linux:

– Realize um túnel ssh através da Gate, abrindo um terminal e digitando:
ssh nomedousuario@gate.ifi.unicamp.br -NL 50022:nomedocluster.ifi.unicamp.br:22
Digite sua senha (senha da gate).

A partir daí o terminal parecerá ficar travado com o cursor piscando. Isto é normal e significa que foi aberto o túnel. Deixe este terminal aberto (não faça logout) e abra um novo terminal.

Com o novo terminal aberto você deve digitar o seguinte comando para copiar arquivos do cluster para seu computador: (farei um exemplo prático copiando o arquivo “exemplo.dat” que está na sua área do cluster para o “/root” do seu computador)

scp -P 50022 nomedousuario@localhost:/home/nomedousuario/exemplo.dat /root
Digite sua senha do cluster.(se a senha estiver correta o arquivo será copiado).

Para copiar arquivos de sua máquina para o cluster, apenas inverta o comando, por exemplo:

scp -P 50022 /root/exemplo.dat nomedousuario@localhost:/home/nomedousuario
Digite sua senha (se a senha estiver correta o arquivo será copiado).

Para encerrarmos o acesso, volte no primeiro terminal (túnel) e encerre-o com um ctrl+c.

 

Utilizando Windows (Putty + Filezilla)

O Windows não possui acesso nativo através do protocolo SSH. Portanto deve-se baixar e instalar um aplicativo cliente SSH (Putty), bem como um cliente SCP ou SFTP, como por exemplo o WinSCP ou Filezilla. Abaixo mostramos os passos para a conexão com o cluster utilizando o Putty + Filezilla.

No Putty preencha os campos:
hostname: gate.ifi.unicamp.br
port: 22
connection type: SSH

Do lado esquerdo há uma árvore de opões chamado Category:
– Expanda a opção: Connection -> SSH -> TUNELL
– No campo Source Port digite: 50022
– Em destination digite: nomedocluster.ifi.unicamp.br:22
– Clique no botão ADD
– Marque a opção: Local

– Realize a conexão clicando no botão: OPEN
– Digite sua senha da Gate
Se tudo correu bem você estará conectado à Gate realizando um Túnel.

Depois de baixado e instalado, abra o Filezilla.

Preencha os campos:
host: sftp://localhost
username: seuusuario
password: suasenhadocluster
port: 50022

Clique no botão de conexão. A partir daí você estará conectado, bastando realizar as transferências de arquivo entre o cluster e sua máquina, ou vice versa.

 

10 – Não consigo compilar. Por quê?

Verifique o path e exports do sistema:
echo $PATH
echo $LD_LIBRARY_PATH

Muitos programas necessitam de bibliotecas com versões específicas para serem executados. Nos clusters existem várias bibliotecas pré-instaladas que podem ser carregadas facilmente utilizando o comando module. O usuário pode utilizar este comando tanto no terminal como no script do seu job, sendo os comando mais utilizados:

module avail (utilizado para listar todos os módulos pré-instalados no cluster).

module load tipodomodulo/nomedomodulo (carregar um módulo)

module unload tipodomodulo/nomedomodulo (encerrar um módulo)

module list (lista todos os módulos que estão carregados no momento)

Exemplo de comando para carregamento da versão 4.8.2 do gcc: module load compiler/gcc-4.8.2

 

11 – Como posso fazer um backup dos meus dados?

 Não é feita cópia de segurança dos diretórios, o usuário é responsável pela cópia de seus dados e eventual recuperação em caso de perda. A transferência de arquivos dos clusters devem ser realizados através de ssh (vide pergunta 8)

 

12 – Quais dados são necessário para abrir um chamado para equipe de HCPC?

Ao abrir um chamado em https://os.ifi.unicamp.br é necessário infomar:

– Cluster que está gerando o errro;
– Mensagens de erros;
– Diretório onde estão os arquivos que geram os erros;
– Comandos ou scripts que geram os erros;
– Informar se os testes podem ser feitos no diretório original ou devem ser copiados.

 

13 – Para onde devo enviar mensagens de dúvidas e solicitações de ajuda com relação aos clusters?

Deve ser aberto um chamado para a equipe de HPC, através do link: https://os.ifi.unicamp.br

 

14 – Qual é o meu limite de utilização de espaço em disco?

Não existe limitação, porém o usuário deve utilizar de bom senso, colaborando para a coletividade do uso, visto que o espaço de armazenamento é finito.

 

15 – Como é o procedimento de backup e “limpeza” de arquivos antigos dos discos de HPC?

Não é imposto um procedimento de “limpeza” de arquivos antigos. Quando o espaço ocupado alcança cerca de 95%, é enviado um comunicado a todos os usuários solicitando a limpeza. Deve haver bom senso por parte do usuário no que diz respeito a retirada dos seus arquivos do cluster, levando em conta que o espaço de armazenamento é finito.

 

16 – Como posso saber quais jobs estão sendo executados em cada cluster?

Execute o comando “qstat -a” ou “qstat -an”

 

17 – Por que alguns aplicativos gráficos não executam e apresentam a mensagem de erro?

Quando for executar algum job onde seja necessário a utilização de algum aplicativo gráfico, utilize o comando abaixo para realizar o logon: ssh -Y nomedousuario@nomedocluster

 

18 – Como posso saber se minha solicitação de abertura de conta no cluster foi atendida?

Você receberá um e-mail informando a abertura da sua nova conta e instruções de uso do cluster. Geralmente isto ocorre até dois dias após a aprovação da solicitação pelo coordenador do cluster.

 

19 – Como obter informações sobre os comandos do sistema operacional?

Se você conhece alguns comandos mas não sabe como utilizá-los, basta executar o help do sistema, que é o comando “man“. Por exemplo: se você tem dúvida no comando “ls” (lista o conteúdo de um diretório), execute “man ls“.

 

20 – O que fazer caso eu esqueça minha senha?

Em caso de esquecimento da senha deve-se abrir um chamado através do link:
https://os.ifi.unicamp.br

 

21 – Como fazer para utilizar GPU?

Para usuários do cluster Feynman existe uma fila (CUDA) para submissão de jobs que utilizem GPU. Para usuários do cluster Planck, há um computador (Mach) dedicado com GPU, porém o mesmo somente pode ser utilizado interativamente para desenvolvimento, não sendo permitido a utilização em processos de produção. Para obter acesso digite: ssh nomedousuario@mach.

Lembrando que para o correto funcionamento, o software utilizado deve suportar o uso de GPU.

 

22 – O que é área de scratch?

Scratch é um diretório temporário compartilhado, sem restrição de permissões, utilizado quando um job necessita escrever uma grande quantidade de dados em disco durante sua execução. Ele está localizado em /data2 em todos os nodes dos clusters. Caso necessite utilizar esta área, é primordial que após o término do job o usuário delete ou mova estes dados. Uma dica para criação de diretório nesta área seria utilizar a seguinte linha em seu script: mkdir /data2/$PBS_JOBID.