본문으로 건너뛰기

NVIDIA GPU 지원

와탭 쿠버네티스 에이전트의 GPU 메트릭스 수집 방법

와탭 쿠버네티스 노드 에이전트는 데이터 센터 GPU 관리자(DCGM) Exporter를 사용하여 NVIDIA GPU의 성능 메트릭을 수집하고 모니터링합니다. 해당 과정은 사이드카(Sidecar) 패턴을 활용하여 구성됩니다.

  • 사이드카 패턴

    DCGM Exporter는 주 애플리케이션 컨테이너와 함께 동일한 Pod 내에서 실행되는 보조 컨테이너로 설정됩니다. 이 사이드카 패턴은 DCGM Exporter가 GPU 상태 정보를 효율적으로 수집할 수 있도록 돕습니다.

  • DCGM Exporter

    dcgm-exporter 컨테이너는 NVIDIA의 데이터 센터 GPU 관리자(DCGM)를 통해 GPU의 상태와 성능 관련 지표를 수집합니다.

  • 메트릭 수집 및 전송

    whatap-node-agent 컨테이너는 dcgm-exporter의 HTTP 엔드포인트를 통해 GPU 메트릭을 요청하고 이를 수집합니다.

    노트

    dcgm-exporter의 HTTP 엔드포인트는 보통 포트 9400을 사용합니다.

  • MIG 환경 지원

    WhaTap Kubernetes는 NVIDIA GPU 클러스터 환경에서 MIG(Multi-Instance GPU) 기능을 지원하여, 물리 GPU 단위뿐만 아니라 MIG 인스턴스까지 세분화된 모니터링을 제공합니다.

    MIG 모드를 사용하면 하나의 물리 GPU를 여러 논리 인스턴스로 분할해 워크로드를 격리하고 자원을 할당할 수 있습니다. WhaTap은 이러한 환경에서도 정확한 지표 수집과 시각화를 지원합니다.

수집 메트릭스

다음은 DCGM Exporter를 통해 수집되는 주요 GPU 메트릭스 항목들입니다.

TitleMetricsUnitLabelDescriptionCodeCategory
DCGM_FI_PROF_GR_ENGINE_ACTIVE for DevicesDCGM_FI_PROF_GR_ENGINE_ACTIVE%GPU ${gpu} [Node: ${onodeName}]
e.g) GPU 5 [Node: ip-10-143-180]
DCGM에서 수집한 DCGM_FI_PROF_GR_ENGINE_ACTIVE 지표를 MIG 모드에서는 가중치(Compute Instance 비율)로 보정하여, GPU 물리 디바이스 단위로 집계 1001DCP
DCGM_FI_PROF_GR_ENGINE_ACTIVE for MIG InstanceDCGM_FI_PROF_GR_ENGINE_ACTIVE%GPU ${gpu} / ${GPU_I_ID}(${GPU_I_PROFILE}) / ${DCGM_FI_DEV_UUID} [${onodeName}]
e.g) GPU 5 / 11(2g.10gb) / MIG-1234-5678-c [ip-10-143-180]
DCGM에서 수집한 DCGM_FI_PROF_GR_ENGINE_ACTIVE 지표를 MIG 모드에서는 가중치(Compute Instance 비율)로 보정하여, MIG 인스턴스 단위로 집계1001DCP
DCGM_FI_PROF_GR_ENGINE_ACTIVE Node-Level AverageDCGM_FI_PROF_GR_ENGINE_ACTIVE%${onodeName}
e.g) ip-10-143-180
DCGM에서 수집한 DCGM_FI_PROF_GR_ENGINE_ACTIVE 지표를 MIG 모드에서는 가중치(Compute Instance 비율)로 보정하여, 노드 단위로 집계1001DCP
DCGM_FI_PROF_GR_ENGINE_ACTIVE Pod-LevelDCGM_FI_PROF_GR_ENGINE_ACTIVE%namespace=${namespace}, pod=${pod}, node=${onodeName}
[GPU ${gpu} / ${GPU_I_ID}(${GPU_I_PROFILE}) / ${DCGM_FI_DEV_UUID}]

e.g)
namespace=whatap, pod=gpu-mig-5-a, node=ip-10-143-180 [GPU 5 / 11(2g.10gb) / MIG-1234-5678-c]
namespace=whatap, pod=gpu-no-mig-2, node=ip-10-143-140 [GPU 2 / null(null) / GPU-bcde-fghi]
DCGM에서 수집한 DCGM_FI_PROF_GR_ENGINE_ACTIVE 지표를 MIG 모드에서는 가중치(Compute Instance 비율)로 보정하여, 파드 단위로 집계1001DCP
CGM_FI_PROF_DRAM_ACTIVE for DevicesDCGM_FI_PROF_DRAM_ACTIVE%GPU ${gpu} [Node: ${onodeName}]
e.g) GPU 5 [Node: ip-10-143-180]
DCGM에서 수집한 DCGM_FI_PROF_DRAM_ACTIVE 지표를 MIG 모드에서는 가중치(Compute Instance 비율)로 보정하여, GPU 물리 디바이스 단위로 집계1005DCP
DCGM_FI_PROF_DRAM_ACTIVE for MIG InstanceDCGM_FI_PROF_DRAM_ACTIVE%GPU ${gpu} / ${GPU_I_ID}(${GPU_I_PROFILE}) / ${DCGM_FI_DEV_UUID} [${onodeName}]
e.g) GPU 5 / 11(2g.10gb) / MIG-1234-5678-c [ip-10-143-180]
DCGM에서 수집한 DCGM_FI_PROF_DRAM_ACTIVE 지표를 MIG 모드에서는 가중치(Compute Instance 비율)로 보정하여, MIG 인스턴스 단위로 집계1005DCP
DCGM_FI_PROF_DRAM_ACTIVE Node-Level AverageDCGM_FI_PROF_DRAM_ACTIVE%${onodeName}
e.g) ip-10-143-180
DCGM에서 수집한 DCGM_FI_PROF_DRAM_ACTIVE 지표를 MIG 모드에서는 가중치(Compute Instance 비율)로 보정하여, 노드 단위로 집계1005DCP
DCGM_FI_PROF_DRAM_ACTIVE Pod-LevelDCGM_FI_PROF_DRAM_ACTIVE%namespace=${namespace}, pod=${pod}, node=${onodeName}
[GPU ${gpu} / ${GPU_I_ID}(${GPU_I_PROFILE}) / ${DCGM_FI_DEV_UUID}]

e.g)
namespace=whatap, pod=gpu-mig-5-a, node=ip-10-143-180 [GPU 5 / 11(2g.10gb) / MIG-1234-5678-c]
namespace=whatap, pod=gpu-no-mig-2, node=ip-10-143-140 [GPU 2 / null(null) / GPU-bcde-fghi]
DCGM에서 수집한 DCGM_FI_PROF_DRAM_ACTIVE 지표를 MIG 모드에서는 가중치(Compute Instance 비율)로 보정하여, 파드 단위로 집계1005DCP
DCGM_FI_PROF_SM_ACTIVE for DevicesDCGM_FI_PROF_SM_ACTIVE%GPU ${gpu} [Node: ${onodeName}]
e.g) GPU 5 [Node: ip-10-143-180]
DCGM에서 수집한 DCGM_FI_PROF_SM_ACTIVE 지표를 MIG 모드에서는 가중치(Compute Instance 비율)로 보정하여, GPU 물리 디바이스 단위로 집계1002DCP
DCGM_FI_PROF_SM_ACTIVE for MIG InstanceDCGM_FI_PROF_SM_ACTIVE%GPU ${gpu} / ${GPU_I_ID}(${GPU_I_PROFILE}) / ${DCGM_FI_DEV_UUID} [${onodeName}]
e.g) GPU 5 / 11(2g.10gb) / MIG-1234-5678-c [ip-10-143-180]
DCGM에서 수집한 DCGM_FI_PROF_SM_ACTIVE 지표를 MIG 모드에서는 가중치(Compute Instance 비율)로 보정하여, MIG 인스턴스 단위로 집계1002DCP
DCGM_FI_PROF_SM_ACTIVE Node-Level AverageDCGM_FI_PROF_SM_ACTIVE%${onodeName}
e.g) ip-10-143-180
DCGM에서 수집한 DCGM_FI_PROF_SM_ACTIVE 지표를 MIG 모드에서는 가중치(Compute Instance 비율)로 보정하여, 노드 단위로 집계1002DCP
DCGM_FI_PROF_SM_ACTIVE Pod-LevelDCGM_FI_PROF_SM_ACTIVE%namespace=${namespace}, pod=${pod}, node=${onodeName}
[GPU ${gpu} / ${GPU_I_ID}(${GPU_I_PROFILE}) / ${DCGM_FI_DEV_UUID}]

e.g)
namespace=whatap, pod=gpu-mig-5-a, node=ip-10-143-180 [GPU 5 / 11(2g.10gb) / MIG-1234-5678-c]
namespace=whatap, pod=gpu-no-mig-2, node=ip-10-143-140 [GPU 2 / null(null) / GPU-bcde-fghi]
DCGM에서 수집한 DCGM_FI_PROF_SM_ACTIVE 지표를 MIG 모드에서는 가중치(Compute Instance 비율)로 보정하여, 파드 단위로 집계1002DCP
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE for DevicesDCGM_FI_PROF_PIPE_TENSOR_ACTIVE%GPU ${gpu} [Node: ${onodeName}]
e.g) GPU 5 [Node: ip-10-143-180]
DCGM에서 수집한 DCGM_FI_PROF_PIPE_TENSOR_ACTIVE 지표를 MIG 모드에서는 가중치(Compute Instance 비율)로 보정하여, GPU 물리 디바이스 단위로 집계1004DCP
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE for MIG InstanceDCGM_FI_PROF_PIPE_TENSOR_ACTIVE%GPU ${gpu} / ${GPU_I_ID}(${GPU_I_PROFILE}) / ${DCGM_FI_DEV_UUID} [${onodeName}]
e.g) GPU 5 / 11(2g.10gb) / MIG-1234-5678-c [ip-10-143-180]
DCGM에서 수집한 DCGM_FI_PROF_PIPE_TENSOR_ACTIVE 지표를 MIG 모드에서는 가중치(Compute Instance 비율)로 보정하여, MIG 인스턴스 단위로 집계1004DCP
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE Node-Level AverageDCGM_FI_PROF_PIPE_TENSOR_ACTIVE%${onodeName}
e.g) ip-10-143-180
DCGM에서 수집한 DCGM_FI_PROF_PIPE_TENSOR_ACTIVE 지표를 MIG 모드에서는 가중치(Compute Instance 비율)로 보정하여, 노드 단위로 집계1004DCP
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE Pod-LevelDCGM_FI_PROF_PIPE_TENSOR_ACTIVE%namespace=${namespace}, pod=${pod}, node=${onodeName}
[GPU ${gpu} / ${GPU_I_ID}(${GPU_I_PROFILE}) / ${DCGM_FI_DEV_UUID}]

e.g)
namespace=whatap, pod=gpu-mig-5-a, node=ip-10-143-180 [GPU 5 / 11(2g.10gb) / MIG-1234-5678-c]
namespace=whatap, pod=gpu-no-mig-2, node=ip-10-143-140 [GPU 2 / null(null) / GPU-bcde-fghi]
DCGM에서 수집한 DCGM_FI_PROF_PIPE_TENSOR_ACTIVE 지표를 MIG 모드에서는 가중치(Compute Instance 비율)로 보정하여, 파드 단위로 집계1004DCP
DCGM_FI_PROF_SM_OCCUPANCY for DevicesDCGM_FI_PROF_SM_OCCUPANCY%GPU ${gpu} [Node: ${onodeName}]
e.g) GPU 5 [Node: ip-10-143-180]
1003DCP
DCGM_FI_PROF_SM_OCCUPANCY for MIG InstanceDCGM_FI_PROF_SM_OCCUPANCY%GPU ${gpu} / ${GPU_I_ID}(${GPU_I_PROFILE}) / ${DCGM_FI_DEV_UUID} [${onodeName}]
e.g) GPU 5 / 11(2g.10gb) / MIG-1234-5678-c [ip-10-143-180]
1003DCP
DCGM_FI_PROF_SM_OCCUPANCY Node-Level AverageDCGM_FI_PROF_SM_OCCUPANCY%${onodeName}
e.g) ip-10-143-180
1003DCP
DCGM_FI_PROF_SM_OCCUPANCY Pod-LevelDCGM_FI_PROF_SM_OCCUPANCY%namespace=${namespace}, pod=${pod}, node=${onodeName}
[GPU ${gpu} / ${GPU_I_ID}(${GPU_I_PROFILE}) / ${DCGM_FI_DEV_UUID}]

e.g)
namespace=whatap, pod=gpu-mig-5-a, node=ip-10-143-180 [GPU 5 / 11(2g.10gb) / MIG-1234-5678-c]
namespace=whatap, pod=gpu-no-mig-2, node=ip-10-143-140 [GPU 2 / null(null) / GPU-bcde-fghi]
1003DCP
DCGM_FI_DEV_GPU_UTIL for DevicesDCGM_FI_DEV_GPU_UTIL%GPU ${gpu} / [${onodeName}]
e.g) GPU 2 / [10.143.140]
DCGM에서 수집한 DCGM_FI_DEV_GPU_UTIL 지표를 GPU 물리 디바이스 단위로 집계
(디바이스가 MIG 모드인 경우에는 해당 지표가 측정되지 않으며 DCGM_FI_PROF_GR_ENGINE_ACTIVE 지표를 통해 GPU 사용률 측정 권고)
203Utilization
DCGM_FI_DEV_GPU_UTIL Node-Level AverageDCGM_FI_DEV_GPU_UTIL%${onodeName}
e.g) 10.143.140
DCGM에서 수집한 DCGM_FI_DEV_GPU_UTIL 지표를 노드 단위로 평균하여 노드 전체 GPU 평균 사용률을 보여줌203Utilization
DCGM_FI_DEV_GPU_UTIL Pod-LevelDCGM_FI_DEV_GPU_UTIL%namespace=${namespace}, pod=${pod}, node=${onodeName} [GPU ${gpu} /
${uuid} ]e.g)namespace=whatap, pod=gpu-no-mig-4, node=ip-10-143-180 [GPU 4/ GPU-defg-
hijk]namespace=gpu, pod=gpu-no-mig-4, node=ip-10-143-180 [GPU 6/ GPU-efgh-ijkl]
DCGM에서 수집한 DCGM_FI_DEV_GPU_UTIL 지표를 파드 단위로 평균하여 파드별 GPU 사용률을 확인할 수 있음203Utilization
DCGM_FI_DEV_POWER_USAGE for DevicesDCGM_FI_DEV_POWER_USAGEWGPU ${gpu} [Node: ${onodeName}]
e.g) GPU 5 [Node: ip-10-143-180]
DCGM에서 수집한 GPU 전력 사용량 (Watt) 지표로, GPU 물리 디바이스 단위로 현재 전력 사용률 측정155Power
DCGM_FI_DEV_POWER_USAGE for MIG InstanceDCGM_FI_DEV_POWER_USAGEWGPU ${gpu} / ${GPU_I_ID}(${GPU_I_PROFILE}) / ${DCGM_FI_DEV_UUID} [${onodeName}]
e.g) GPU 5 / 11(2g.10gb) / MIG-1234-5678-c [ip-10-143-180]
DCGM에서 수집한 GPU 전력 사용량 지표를 MIG 인스턴스 단위로 측정155Power
DCGM_FI_DEV_POWER_USAGE Node-Level AverageDCGM_FI_DEV_POWER_USAGEW${onodeName}
e.g) ip-10-143-180
DCGM에서 수집한 GPU 전력 사용량 지표를 노드 단위로 평균 측정155Power
DCGM_FI_DEV_POWER_USAGE Pod-LevelDCGM_FI_DEV_POWER_USAGEW• mig mode=1
namespace=whatap, pod=gpu-mig-5-a, node=ip-10-143-180 [GPU 5 / 11(2g.10gb) / MIG-1234-5678-c]
• mig mode=0
namespace=whatap, pod=gpu-no-mig-2, node=ip-10-143-140 [GPU 2 / null(null) / GPU-bcde-fghi]
DCGM에서 수집한 GPU 전력 사용량 지표를 파드 단위로 측정155Power
DCGM_FI_DEV_FB_USED for DevicesDCGM_FI_DEV_FB_USEDMiBGPU ${gpu} [Node: ${onodeName}]
e.g) GPU 2 [Node: ip-10-143-140]
DCGM에서 수집한 DCGM_FI_DEV_FB_USED 지표를 GPU 물리 디바이스 단위로 집계252Framebuffer
DCGM_FI_DEV_FB_USED for MIG InstanceDCGM_FI_DEV_FB_USEDMiBGPU ${gpu} / ${GPU_I_ID}(${GPU_I_PROFILE}) / ${DCGM_FI_DEV_UUID} [${onodeName}]
e.g) GPU 5 / 11(2g.10gb) / MIG-1234-5678-c [ip-10-143-180]
DCGM에서 수집한 DCGM_FI_DEV_FB_USED 지표를 MIG 인스턴스 단위로 집계252Framebuffer
DCGM_FI_DEV_FB_USED Node-Level AverageDCGM_FI_DEV_FB_USEDMiB${onodeName}
e.g) ip-10-143-180
DCGM에서 수집한 DCGM_FI_DEV_FB_USED 지표를 노드 단위로 집계252Framebuffer
DCGM_FI_DEV_FB_USED Pod-LevelDCGM_FI_DEV_FB_USEDMiBnamespace=${namespace}, pod=${pod}, node=${onodeName}
[GPU ${gpu} / ${uuid}]
e.g)
namespace=whatap, pod=gpu-no-mig-4, node=ip-10-143-180 [GPU 4/ GPU-defg-hijk]
DCGM에서 수집한 DCGM_FI_DEV_FB_USED 지표를 파드 단위로 집계252Framebuffer
DCGM_FI_DEV_FB_USED_PERCENT for DevicesDCGM_FI_DEV_FB_USED_PERCENT%GPU ${gpu} [Node: ${onodeName}]
e.g) GPU 5 [Node: ip-10-143-180]
DCGM에서 수집한 DCGM_FI_DEV_FB_USED_PERCENT 지표를 GPU 물리 디바이스 단위로 계산254Framebuffer
DCGM_FI_DEV_FB_USED_PERCENT for MIG InstanceDCGM_FI_DEV_FB_USED_PERCENT%GPU ${gpu} / ${GPU_I_ID}(${GPU_I_PROFILE}) / ${DCGM_FI_DEV_UUID} [${onodeName}]
e.g) GPU 5 / 11(2g.10gb) / MIG-1234-5678-c [ip-10-143-180]
DCGM에서 수집한 DCGM_FI_DEV_FB_USED_PERCENT 지표를 MIG 인스턴스 단위로 계산254Framebuffer
DCGM_FI_DEV_FB_USED_PERCENT Node-Level AverageDCGM_FI_DEV_FB_USED_PERCENT%${onodeName}
e.g) ip-10-143-180
DCGM에서 수집한 DCGM_FI_DEV_FB_USED_PERCENT 지표를 노드 단위로 평균 계산254Framebuffer
DCGM_FI_DEV_FB_USED_PERCENT Pod-LevelDCGM_FI_DEV_FB_USED_PERCENT%• mig mode=1
namespace=whatap, pod=gpu-mig-5-a, node=ip-10-143-180 [GPU 5 / 11(2g.10gb) / MIG-1234-5678-c]
• mig mode=0
namespace=whatap, pod=gpu-no-mig-2, node=ip-10-143-140 [GPU 2 / null(null) / GPU-bcde-fghi]
DCGM에서 수집한 DCGM_FI_DEV_FB_USED_PERCENT 지표를 파드 단위로 계산254Framebuffer
DCGM_FI_DEV_GPU_TEMP for DevicesDCGM_FI_DEV_GPU_TEMP°CGPU ${gpu} / [${onodeName}]
e.g) GPU 2 / [10.143.140]
DCGM에서 수집한 DCGM_FI_DEV_GPU_TEMP 지표를 GPU 물리 디바이스 단위로 집계150Temperature
DCGM_FI_DEV_GPU_TEMP Node-Level AverageDCGM_FI_DEV_GPU_TEMP°C${onodeName}
e.g) ip-10-143-180
DCGM에서 수집한 DCGM_FI_DEV_GPU_TEMP 지표를 노드 단위로 평균 계산150Temperature
DCGM_FI_DEV_MEM_COPY_UTIL for DevicesDCGM_FI_DEV_MEM_COPY_UTIL%GPU ${gpu} / [${onodeName}]
e.g) GPU 2 / [10.143.140]
DCGM에서 수집한 DCGM_FI_DEV_MEM_COPY_UTIL 지표를 GPU 물리 디바이스 단위로 집계204Utilization
DCGM_FI_DEV_MEM_COPY_UTIL Node-Level AverageDCGM_FI_DEV_MEM_COPY_UTIL%${onodeName}
e.g) ip-10-143-180
DCGM에서 수집한 DCGM_FI_DEV_MEM_COPY_UTIL 지표를 노드 단위로 평균 계산204Utilization
DCGM_FI_DEV_MEM_COPY_UTIL Pod-LevelDCGM_FI_DEV_MEM_COPY_UTIL%namespace=${namespace}, pod=${pod}, node=${onodeName}
[GPU ${gpu} / ${uuid}]
e.g)
namespace=whatap, pod=gpu-no-mig-4, node=ip-10-143-180 [GPU 4/ GPU-defg-hijk]
DCGM에서 수집한 DCGM_FI_DEV_MEM_COPY_UTIL 지표를 파드 단위로 계산204Utilization
DCGM_FI_DEV_SM_CLOCK for DevicesDCGM_FI_DEV_SM_CLOCKMHzGPU ${gpu} [Node: ${onodeName}]
e.g) GPU 5 [Node: ip-10-143-180]
DCGM에서 수집한 SM 클럭(MHz) 정보를 GPU 물리 디바이스 단위로 평균하여 집계100Clocks
DCGM_FI_DEV_SM_CLOCK for MIG InstanceDCGM_FI_DEV_SM_CLOCKMHzGPU ${gpu} / ${GPU_I_ID}(${GPU_I_PROFILE}) / ${DCGM_FI_DEV_UUID} [${onodeName}]
e.g) GPU 5 / 11(2g.10gb) / MIG-1234-5678-c [ip-10-143-180]
DCGM에서 수집한 SM 클럭 정보를 MIG 인스턴스 단위로 평균하여 집계100Clocks
DCGM_FI_DEV_SM_CLOCK Node-Level AverageDCGM_FI_DEV_SM_CLOCKMHz${onodeName}
e.g) ip-10-143-180
DCGM에서 수집한 SM 클럭 정보를 노드 단위로 평균하여 집계100Clocks
DCGM_FI_DEV_SM_CLOCK for Pod-LevelDCGM_FI_DEV_SM_CLOCKMHznamespace=${namespace}, pod=${pod}, node=${onodeName}
[GPU ${gpu} / ${GPU_I_ID}(${GPU_I_PROFILE}) / ${DCGM_FI_DEV_UUID}]
e.g)
namespace=whatap, pod=gpu-mig-5-a, node=ip-10-143-180 [GPU 5 / 11(2g.10gb) / MIG-1234-5678-c]
namespace=whatap, pod=gpu-no-mig-2, node=ip-10-143-140 [GPU 2 / null(null) / GPU-bcde-fghi]
DCGM에서 수집한 SM 클럭 정보를 파드 단위로 집계100Clocks
DCGM_FI_DEV_MEM_CLOCK for DevicesDCGM_FI_DEV_MEM_CLOCKMHzGPU ${gpu} [Node: ${onodeName}]
e.g) GPU 5 [Node: ip-10-143-180]
DCGM에서 수집한 DCGM_FI_DEV_MEM_CLOCK 지표를 GPU 물리 디바이스 단위로 집계101Clock
DCGM_FI_DEV_MEM_CLOCK for MIG InstanceDCGM_FI_DEV_MEM_CLOCKMHzGPU ${gpu} / ${GPU_I_ID}(${GPU_I_PROFILE}) / ${DCGM_FI_DEV_UUID} [${onodeName}]
e.g) GPU 5 / 11(2g.10gb) / MIG-1234-5678-c [ip-10-143-180]
DCGM에서 수집한 DCGM_FI_DEV_MEM_CLOCK 지표를 MIG 인스턴스 단위로 집계101Clock
DCGM_FI_DEV_MEM_CLOCK Node-Level AverageDCGM_FI_DEV_MEM_CLOCKMHz${onodeName}
e.g) ip-10-143-180
DCGM에서 수집한 DCGM_FI_DEV_MEM_CLOCK 지표를 노드 단위로 집계101Clock
Pod-Level DCGM_FI_DEV_MEM_CLOCK for Pod-Level DCGM_FI_DEV_MEM_CLOCKMHz• mig mode=1
namespace=whatap, pod=gpu-mig-5-a, node=ip-10-143-180 [GPU 5 / 11(2g.10gb) / MIG-1234-5678-c]
• mig mode=0
namespace=whatap, pod=gpu-no-mig-2, node=ip-10-143-140 [GPU 2 / null(null) / GPU-bcde-fghi]
DCGM에서 수집한 DCGM_FI_DEV_MEM_CLOCK 지표를 파드 단위로 집계101Clock
DCGM_FI_DEV_PSTATE for DevicesDCGM_FI_DEV_PSTATEINTGPU ${gpu} [Node: ${onodeName}]
e.g) GPU 5 [Node: ip-10-143-180]
DCGM에서 수집한 DCGM_FI_DEV_PSTATE 지표를 MIG 모드가 비활성화된 상태에서 GPU 물리 디바이스 단위로 측정190STATUS
DCGM_FI_DEV_PSTATE for MIG InstanceDCGM_FI_DEV_PSTATEINTGPU ${gpu} / ${GPU_I_ID}($GPU_I_PROFILE) / ${DCGM_FI_DEV_UUID} [${onodeName}]
e.g) GPU 5 / 11(2g.10gb) / MIG-1234-5678-c [ip-10-143-180]
DCGM에서 수집한 DCGM_FI_DEV_PSTATE 지표를 MIG 모드에서 각 MIG 인스턴스 단위로 측정190STATUS