본문으로 건너뛰기

GPU 기능 설정

GPU 모니터링 기능을 활성화하기 위한 에이전트 지원 환경과 GPU 옵션을 안내합니다.

GPU 모니터링 지원 환경

기본적으로 nvidia-smi를 이용하여 성능 데이터 수집 및 인벤토리 수집이 가능하지만, nvidia-dcgm이 설치되어 있다면 추가적인 지표를 수집할 수 있습니다. nvidia-dcgm이 설치된 환경이라면 nvidia-dcgm 서비스는 활성화되어 있어야 합니다.

  • systemctl status nvidia-dcgm 명령을 통해 nvidia-dcgm 서비스가 정상적으로 구동 중인지 확인할 수 있습니다.

  • 수집 가능한 Metric 항목은 지속적으로 추가될 수 있습니다.

수집 도구별 메트릭 항목에 대한 자세한 내용은 GPU 메트릭을 참조하세요.

GPU 기능

GPU 인벤토리 및 GPU 성능요약 기능을 사용하려면 다음 에이전트 버전 이상의 업데이트 및 설정이 필요합니다.

지원 버전

Linux 2.8.9 이상

  • Amazon Linux, RHEL, Fedora, Oracle Linux, CentOS, Rocky Linux, SUSE

    sudo yum update whatap-infra
  • Debian, Ubuntu

    sudo apt-get update
    sudo apt-get install whatap-infra

GPU 옵션

GPU 인벤토리 기능을 활성화하기 위해 아래 옵션이 활성화되어야 합니다.

  • nvidiav2.enabled Boolean

    기본값 false

    nvidia gpu 지표 수집 옵션으로 물리 GPU 구성정보 및 리소스 사용량 정보입니다.

  • nvidiav2.mig.enabled Boolean

    기본값 false

    nvidia gpu mig 관련 지표 수집 옵션으로 MIG 구성정보 및 리소스 사용량 정보입니다. nvidiav2.enabled 옵션 true 설정이 필요합니다.

  • nvidiav2.proc.enabled Boolean

    기본값 false

    nvidia gpu 할당 process 정보 수집 옵션입니다. nvidiav2.enabled 옵션 true 설정이 필요합니다.

  • nvidiav2.dcp.enabled Boolean

    기본값 true

    nvidia dcp(Data Center Profiling) 지표 수집 옵션입니다. nvidiav2.enabled 옵션 true 설정이 필요합니다.

  • nvidiav2.interval.sec

    기본값 30초

    nvidia 지표 수집 주기입니다.