-
Notifications
You must be signed in to change notification settings - Fork 0
Tutorial do HTCondor
HTCondor é um sistema de gerenciamento de jobs para clusters de computação. Ele permite submeter tarefas para execução em nós remotos, gerenciar filas e recuperar resultados automaticamente.
É amplamente utilizado em ambientes acadêmicos e científicos.
Um job é descrito por um arquivo com extensão .sub.
Exemplo: job.sub
Executable = programa.sh
Arguments = entrada.txt
Output = saida.out
Error = erro.err
Log = log.log
QueueCriar o script que será executado no nó de computação.
Arquivo: programa.sh
#!/bin/bash
echo "Processando arquivo..."
wc -l entrada.txt > resultado.txtDar permissão de execução:
chmod +x programa.shA partir da sua máquina local:
scp programa.sh entrada.txt job.sub sarue:/home/<usuario>/condor_jobs/Conectar no servidor:
ssh cser
cd ~/condor_jobsNo servidor, dentro do diretório do job:
condor_submit job.subSaída típica:
Submitting job(s). 1 job(s) submitted to cluster 1234.
Ver jobs na fila:
condor_qVer detalhes:
condor_q -longVer histórico de jobs finalizados:
condor_historyApós o término do job, os arquivos aparecem no diretório de submissão:
-
saida.out -
erro.err -
resultado.txt
Para baixar para sua máquina local:
scp sarue:/home/<usuario>/condor_jobs/resultado.txt .Ou baixar todos os arquivos de saída:
scp sarue:/home/<usuario>/condor_jobs/*.out .Cancelar um job específico:
condor_rm 1234Cancelar todos os seus jobs:
condor_rm <usuario>Na máquina local:
scp -r condor_jobs sarue:/home/<usuario>/
ssh cser
cd condor_jobs
condor_submit job.sub
condor_qApós a finalização:
scp sarue:/home/<usuario>/condor_jobs/resultado.txt .