GPU 기능
GPU 모니터링 기능을 활성화하기 위한 에이전트 지원 환경과 GPU 옵션을 안내합니다.
GPU 모니터링 지원 환경
기본적으로 nvidia-smi를 이용하여 성능 데이터 수집 및 인벤토리 수집이 가능하지만, nvidia-dcgm이 설치되어 있다면 추가적인 지표를 수집할 수 있습니다. nvidia-dcgm이 설치된 환경이라면 nvidia-dcgm 서비스는 활성화되어 있어야 합니다.
-
systemctl status nvidia-dcgm 명령을 통해 nvidia-dcgm 서비스가 정상적으로 구동 중인지 확인할 수 있습니다.
-
수집 가능한 Metric 항목은 지속적으로 추가될 수 있습니다.
nvidia-smi만으로 수집할 수 있는 Metric 정보
GPU_Util Encoder_Util Decoder_Util Memory_Copy_Util FB_Total_Memory FB_Free_Memory FB_Used_Memory PerformanceState Power_Usage Fan_Speed SM_Clock Memory_Clock Video_Clock
nvidia-dcgm으로 수집할 수 있는 Metric 정보
GR_Engine_Active SM_Actve_Util SM_Occupancy Tensor_Core_Util DRAM_Active_Util FP64_Compute_Util FP32_Compute_Util FP16_Compute_Util BAR1_Total_Memory FB_Reserved_Memory FB_Memory_Usage ECC_SBE_Total ECC_DBE_Total GPU_Temperature PCIe_TX PCIe_RX NVLink_TX NVLink_RX
GPU 기능
GPU 인벤토리 및 GPU 성능요약 기능을 사용하려면 다음 에이전트 버전 이상의 업데이트 및 설정이 필요합니다.
지원 버전
Linux 2.8.9 이상
-
Amazon Linux, RHEL, Fedora, Oracle Linux, CentOS, Rocky Linux, SUSE
sudo yum update whatap-infra -
Debian, Ubuntu
sudo apt-get update
sudo apt-get install whatap-infra
GPU 옵션
GPU 인벤토리 기능을 활성화하기 위해 아래 옵션이 활성화되어야 합니다.
-
nvidiav2.enabled Boolean
기본값
falsenvidia gpu 지표 수집 옵션으로 물리 GPU 구성정보 및 리소스 사용량 정보입니다.
-
nvidiav2.mig.enabled Boolean
기본값
falsenvidia gpu mig 관련 지표 수집 옵션으로 MIG 구성정보 및 리소스 사용량 정보입니다. nvidiav2.enabled 옵션
true설정이 필요합니다. -
nvidiav2.proc.enabled Boolean
기본값
falsenvidia gpu 할당 process 정보 수집 옵션입니다. nvidiav2.enabled 옵션
true설정이 필요합니다. -
nvidiav2.dcp.enabled Boolean
기본값
truenvidia dcp(Data Center Profiling) 지표 수집 옵션입니다. nvidiav2.enabled 옵션
true설정이 필요합니다. -
nvidiav2.interval.sec
기본값
30초nvidia 지표 수집 주기입니다.