오늘은 Slurm을 한 번 설치해보고 있는데,
제대로 나와있는 가이드도 없고,
아직 시행착오를 겪는 중이다.
그래서 일단 지금 까지 겪어온 시행착오에 대해
정리를 해둘까 한다.
일단..그마나 가장 설명이 잘 되어 있는 사이트는
2곳 이었는데,
http://docs.nanomatch.de/technical/SimStackRequirements/SingleNodeSlurm.html
SLURM single node install
SLURM single node install SimStack requires a batch system such as Torque, SLURM or LSF for job execution. Of these SLURM is the most unproblematic to run on a single node. It is also easily available on Centos, RHEL and Ubuntu server. In this tutorial we
docs.nanomatch.de
https://wonwooddo.tistory.com/35
Centos7에서 Slurm 설치
Cluster Server and Compute Nodes 1. 아래 파일에서 원하는 hostname으로 수정vi /etc/hostname wonwooddo또 아래 파일에서 subdomain이 있다면 아래에 hostname과 ip를 추가하자vi /etc/hosts 123127.0.0.1 localhost.localdomain localho
wonwooddo.tistory.com
이렇게 두 곳을 참고해서 설치를 해보고 있는 중이다.
일단 Centos7에서 Slurm설치 글을 보고 먼저 해봤는데,
OS 버전도 다르고, 여러 노드를 만들기 위한 기본 환경이
필요해보여서 진행이 막히는 부분이 있었다.
그래서 일단은 SLURM single node install 글을 참조하여 진행해보고 있다.
글을 따라 쭉 하다보면
나는 OS 버전이 Rockey 8.8 버전이라 그런지
yum install ohpc-slurm-server ohpc-slurm-client slurm-torque-ohpc slurm-slurmd-ohpc
해당 부분부터 막히기 시작했었다.
그래서 확인하고 해결했는데,
일단 wget 명령에서 다른 버전을 설치해줘야 한다.
wget "https://github.com/openhpc/ohpc/releases/download/v1.3.GA/ohpc-release-1.3-1.el7.x86_64.rpm"
이게 아니고,
wget "http://repos.openhpc.community/OpenHPC/2/CentOS_8/x86_64/ohpc-release-2-1.el8.x86_64.rpm"
이걸로 받아서 진행하면
install 부분까지는 쭉 진행이 가능하다.
아 그리고
slurm-ctld-ohpc
이 녀석도 없다고 나와서 일단 빼고 설치해봤다.
그리고 나서 또 한 번의 위기가 찾아오는데,
munge 서비스가 실행이 안된다..
여기 설치 리스트에 있어서
그냥 될 줄 알았더니..또 뭔가를 해줘야 하는 것 같다.
현재 발생하는 에러는
Job for munge.service failed because the control process exited with error code.
See "systemctl status munge.service" and "journalctl -xe" for details.
이다.
그래서 현재는 해당 문제를 해결하기 위한 방안을 찾아보고 있다..
찾게 되면 다음 글에서 이어서 써보도록 하겠다..
'Cluster > Slurm' 카테고리의 다른 글
slurm 설치해보기(마무리_풀 설치과정) (0) | 2023.09.08 |
---|---|
slurm 설치해보기(3) (0) | 2023.08.08 |
Slurm 설치해보기(2) (0) | 2023.08.08 |
Slurm (0) | 2023.07.31 |
SGE(Sun Grid Engine) (0) | 2023.07.31 |