본문으로 건너뛰기

GPU 기능

GPU 모니터링 기능을 활성화하기 위한 에이전트 지원 환경과 GPU 옵션을 안내합니다.

GPU 모니터링 지원 환경

기본적으로 nvidia-smi를 이용하여 성능 데이터 수집 및 인벤토리 수집이 가능하지만, nvidia-dcgm이 설치되어 있다면 추가적인 지표를 수집할 수 있습니다. nvidia-dcgm이 설치된 환경이라면 nvidia-dcgm 서비스는 활성화되어 있어야 합니다.

  • systemctl status nvidia-dcgm 명령을 통해 nvidia-dcgm 서비스가 정상적으로 구동 중인지 확인할 수 있습니다.

  • 수집 가능한 Metric 항목은 지속적으로 추가될 수 있습니다.


nvidia-smi만으로 수집할 수 있는 Metric 정보

GPU_Util Encoder_Util Decoder_Util Memory_Copy_Util FB_Total_Memory FB_Free_Memory FB_Used_Memory PerformanceState Power_Usage Fan_Speed SM_Clock Memory_Clock Video_Clock

nvidia-dcgm으로 수집할 수 있는 Metric 정보

GR_Engine_Active SM_Actve_Util SM_Occupancy Tensor_Core_Util DRAM_Active_Util FP64_Compute_Util FP32_Compute_Util FP16_Compute_Util BAR1_Total_Memory FB_Reserved_Memory FB_Memory_Usage ECC_SBE_Total ECC_DBE_Total GPU_Temperature PCIe_TX PCIe_RX NVLink_TX NVLink_RX

GPU 기능

GPU 인벤토리 및 GPU 성능요약 기능을 사용하려면 다음 에이전트 버전 이상의 업데이트 및 설정이 필요합니다.

지원 버전

Linux 2.8.9 이상

  • Amazon Linux, RHEL, Fedora, Oracle Linux, CentOS, Rocky Linux, SUSE

    sudo yum update whatap-infra
  • Debian, Ubuntu

    sudo apt-get update
    sudo apt-get install whatap-infra

GPU 옵션

GPU 인벤토리 기능을 활성화하기 위해 아래 옵션이 활성화되어야 합니다.

  • nvidiav2.enabled Boolean

    기본값 false

    nvidia gpu 지표 수집 옵션으로 물리 GPU 구성정보 및 리소스 사용량 정보입니다.

  • nvidiav2.mig.enabled Boolean

    기본값 false

    nvidia gpu mig 관련 지표 수집 옵션으로 MIG 구성정보 및 리소스 사용량 정보입니다. nvidiav2.enabled 옵션 true 설정이 필요합니다.

  • nvidiav2.proc.enabled Boolean

    기본값 false

    nvidia gpu 할당 process 정보 수집 옵션입니다. nvidiav2.enabled 옵션 true 설정이 필요합니다.

  • nvidiav2.dcp.enabled Boolean

    기본값 true

    nvidia dcp(Data Center Profiling) 지표 수집 옵션입니다. nvidiav2.enabled 옵션 true 설정이 필요합니다.

  • nvidiav2.interval.sec

    기본값 30초

    nvidia 지표 수집 주기입니다.