GPU 기능
GPU 모니터링 기능을 활성화하기 위한 에이전트 지원 환경과 GPU 옵션을 안내합니다.
GPU 모니터링 지원 환경
기본적으로 nvidia-smi를 이용하여 성능 데이터 수집 및 인벤토리 수집이 가능하지만, nvidia-dcgm이 설치되어 있다면 추가적인 지표를 수집할 수 있습니다. nvidia-dcgm이 설치된 환경이라면 nvidia-dcgm 서비스는 활성화되어 있어야 합니다.
-
systemctl status nvidia-dcgm 명령을 통해 nvidia-dcgm 서비스가 정상적으로 구동 중인지 확인할 수 있습니다.
-
수집 가능한 Metric 항목은 지속적으로 추가될 수 있습니다.
nvidia-smi만으로 수집할 수 있는 Metric 정보
GPU_Util
Encoder_Util
Decoder_Util
Memory_Copy_Util
FB_Total_Memory
FB_Free_Memory
FB_Used_Memory
PerformanceState
Power_Usage
Fan_Speed
SM_Clock
Memory_Clock
Video_Clock
nvidia-dcgm으로 수집할 수 있는 Metric 정보
GR_Engine_Active
SM_Actve_Util
SM_Occupancy
Tensor_Core_Util
DRAM_Active_Util
FP64_Compute_Util
FP32_Compute_Util
FP16_Compute_Util
BAR1_Total_Memory
FB_Reserved_Memory
FB_Memory_Usage
ECC_SBE_Total
ECC_DBE_Total
GPU_Temperature
PCIe_TX
PCIe_RX
NVLink_TX
NVLink_RX
GPU 기능
GPU 인벤토리 및 GPU 성능요약 기능을 사용하려면 다음 에이전트 버전 이상의 업데이트 및 설정이 필요합니다.
지원 버전
Linux 2.8.9 이상
-
Amazon Linux, RHEL, Fedora, Oracle Linux, CentOS, Rocky Linux, SUSE
sudo yum update whatap-infra
-
Debian, Ubuntu
sudo apt-get update
sudo apt-get install whatap-infra
GPU 옵션
GPU 인벤토리 기능을 활성화하기 위해 아래 옵션이 활성화되어야 합니다.
-
nvidiav2.enabled Boolean
기본값
false
nvidia gpu 지표 수집 옵션으로 물리 GPU 구성정보 및 리소스 사용량 정보입니다.
-
nvidiav2.mig.enabled Boolean
기본값
false
nvidia gpu mig 관련 지표 수집 옵션으로 MIG 구성정보 및 리소스 사용량 정보입니다. nvidiav2.enabled 옵션
true
설정이 필요합니다. -
nvidiav2.proc.enabled Boolean
기본값
false
nvidia gpu 할당 process 정보 수집 옵션입니다. nvidiav2.enabled 옵션
true
설정이 필요합니다. -
nvidiav2.dcp.enabled Boolean
기본값
true
nvidia dcp(Data Center Profiling) 지표 수집 옵션입니다. nvidiav2.enabled 옵션
true
설정이 필요합니다. -
nvidiav2.interval.sec
기본값
30초
nvidia 지표 수집 주기입니다.