본문으로 건너뛰기

GPU 메트릭

DCGM Exporter를 통해 수집되는 NVIDIA GPU 메트릭 목록입니다. GPU 수집 방식과 사이드카 패턴은 지원 환경 > NVIDIA GPU 문서를 참조하세요.

MetricTypeUnitDescription
DCGM_FI_DEV_GPU_UTILgauge%GPU 코어가 활발하게 연산 작업을 수행한 시간의 비율
DCGM_FI_PROF_GR_ENGINE_ACTIVEgaugeratio그래픽 엔진(3D/Compute)이 활성 상태인 시간의 비율
DCGM_FI_PROF_SM_ACTIVEgaugeratio하나 이상의 워프(Warp)가 활성 상태인 사이클의 비율
DCGM_FI_PROF_SM_OCCUPANCYgaugeratioSM(Streaming Multiprocessor)의 점유율 (SM 당 상주 워프 비율)
DCGM_FI_PROF_PIPE_TENSOR_ACTIVEgaugeratio텐서 코어(HMMA) 파이프가 활성 상태인 사이클의 비율
DCGM_FI_PROF_DRAM_ACTIVEgaugeratio메모리 인터페이스가 활성 상태(데이터 송수신)인 사이클의 비율
DCGM_FI_DEV_FB_USEDgaugeMiB사용 중인 프레임버퍼(VRAM) 메모리
DCGM_FI_DEV_FB_FREEgaugeMiB사용할 수 있는 프레임버퍼(VRAM) 메모리
DCGM_FI_DEV_FB_TOTALgaugeMiB총 프레임버퍼(VRAM) 메모리
DCGM_FI_DEV_FB_USED_PERCENTgauge%사용 중인 프레임버퍼(VRAM) 메모리의 백분율
DCGM_FI_DEV_FB_RESERVEDgaugeMiB예약된 프레임버퍼 메모리
DCGM_FI_PROF_PCIE_TX_BYTEScounterbytePCIe 버스를 통해 전송(Host → Device)된 총 데이터양
DCGM_FI_PROF_PCIE_RX_BYTEScounterbytePCIe 버스를 통해 수신(Device → Host)된 총 데이터양
DCGM_FI_DEV_POWER_USAGEgaugeW현재 GPU의 전력 소비량
DCGM_FI_DEV_GPU_TEMPgauge°CGPU 칩의 현재 온도
DCGM_FI_DEV_SM_CLOCKgaugeMHzSM(Streaming Multiprocessor) 클럭 주파수
DCGM_FI_DEV_MEM_CLOCKgaugeMHz메모리 클럭 주파수
DCGM_FI_DEV_PSTATEgaugeP-StateGPU의 현재 성능 상태 (P0가 가장 높음)
DCGM_FI_DEV_ECC_SBE_AGG_TOTALcountercount누적된 단일 비트(Single-Bit) 영구 ECC 오류 수
DCGM_FI_DEV_ECC_DBE_AGG_TOTALcountercount누적된 이중 비트(Double-Bit) 영구 ECC 오류 수