GPU 기능 설정
GPU 모니터링 기능을 활성화하기 위한 에이전트 지원 환경과 GPU 옵션을 안내합니다.
GPU 모니터링 지원 환경
기본적으로 nvidia-smi를 이용하여 성능 데이터 수집 및 인벤토리 수집이 가능하지만, nvidia-dcgm이 설치되어 있다면 추가적인 지표를 수집할 수 있습니다. nvidia-dcgm이 설치된 환경이라면 nvidia-dcgm 서비스는 활성화되어 있어야 합니다.
-
systemctl status nvidia-dcgm 명령을 통해 nvidia-dcgm 서비스가 정상적으로 구동 중인지 확인할 수 있습니다.
-
수집 가능한 Metric 항목은 지속적으로 추가될 수 있습니다.
수집 도구별 메트릭 항목에 대한 자세한 내용은 GPU 메트릭을 참조하세요.
GPU 기능
GPU 인벤토리 및 GPU 성능요약 기능을 사용하려면 다음 에이전트 버전 이상의 업데이트 및 설정이 필요합니다.
지원 버전
Linux 2.8.9 이상
-
Amazon Linux, RHEL, Fedora, Oracle Linux, CentOS, Rocky Linux, SUSE
sudo yum update whatap-infra -
Debian, Ubuntu
sudo apt-get update
sudo apt-get install whatap-infra
GPU 옵션
GPU 인벤토리 기능을 활성화하기 위해 아래 옵션이 활성화되어야 합니다.
-
nvidiav2.enabled Boolean
기본값
falsenvidia gpu 지표 수집 옵션으로 물리 GPU 구성정보 및 리소스 사용량 정보입니다.
-
nvidiav2.mig.enabled Boolean
기본값
falsenvidia gpu mig 관련 지표 수집 옵션으로 MIG 구성정보 및 리소스 사용량 정보입니다. nvidiav2.enabled 옵션
true설정이 필요합니다. -
nvidiav2.proc.enabled Boolean
기본값
falsenvidia gpu 할당 process 정보 수집 옵션입니다. nvidiav2.enabled 옵션
true설정이 필요합니다. -
nvidiav2.dcp.enabled Boolean
기본값
truenvidia dcp(Data Center Profiling) 지표 수집 옵션입니다. nvidiav2.enabled 옵션
true설정이 필요합니다. -
nvidiav2.interval.sec
기본값
30초nvidia 지표 수집 주기입니다.