GPU 메트릭
DCGM Exporter를 통해 수집되는 NVIDIA GPU 메트릭 목록입니다. GPU 수집 방식과 사이드카 패턴은 지원 환경 > NVIDIA GPU 문서를 참조하세요.
| Metric | Type | Unit | Description |
|---|---|---|---|
DCGM_FI_DEV_GPU_UTIL | gauge | % | GPU 코어가 활발하게 연산 작업을 수행한 시간의 비율 |
DCGM_FI_PROF_GR_ENGINE_ACTIVE | gauge | ratio | 그래픽 엔진(3D/Compute)이 활성 상태인 시간의 비율 |
DCGM_FI_PROF_SM_ACTIVE | gauge | ratio | 하나 이상의 워프(Warp)가 활성 상태인 사이클의 비율 |
DCGM_FI_PROF_SM_OCCUPANCY | gauge | ratio | SM(Streaming Multiprocessor)의 점유율 (SM 당 상주 워프 비율) |
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE | gauge | ratio | 텐서 코어(HMMA) 파이프가 활성 상태인 사이클의 비율 |
DCGM_FI_PROF_DRAM_ACTIVE | gauge | ratio | 메모리 인터페이스가 활성 상태(데이터 송수신)인 사이클의 비율 |
DCGM_FI_DEV_FB_USED | gauge | MiB | 사용 중인 프레임버퍼(VRAM) 메모리 |
DCGM_FI_DEV_FB_FREE | gauge | MiB | 사용할 수 있는 프레 임버퍼(VRAM) 메모리 |
DCGM_FI_DEV_FB_TOTAL | gauge | MiB | 총 프레임버퍼(VRAM) 메모리 |
DCGM_FI_DEV_FB_USED_PERCENT | gauge | % | 사용 중인 프레임버퍼(VRAM) 메모리의 백분율 |
DCGM_FI_DEV_FB_RESERVED | gauge | MiB | 예약된 프레임버퍼 메모리 |
DCGM_FI_PROF_PCIE_TX_BYTES | counter | byte | PCIe 버스를 통해 전송(Host → Device)된 총 데이터양 |
DCGM_FI_PROF_PCIE_RX_BYTES | counter | byte | PCIe 버스를 통해 수신(Device → Host)된 총 데이터양 |
DCGM_FI_DEV_POWER_USAGE | gauge | W | 현재 GPU의 전력 소비량 |
DCGM_FI_DEV_GPU_TEMP | gauge | °C | GPU 칩의 현재 온도 |
DCGM_FI_DEV_SM_CLOCK | gauge | MHz | SM(Streaming Multiprocessor) 클럭 주파수 |
DCGM_FI_DEV_MEM_CLOCK | gauge | MHz | 메모리 클럭 주파수 |
DCGM_FI_DEV_PSTATE | gauge | P-State | GPU의 현재 성능 상태 (P0가 가장 높음) |
DCGM_FI_DEV_ECC_SBE_AGG_TOTAL | counter | count | 누적된 단일 비트(Single-Bit) 영구 ECC 오류 수 |
DCGM_FI_DEV_ECC_DBE_AGG_TOTAL | counter | count | 누적된 이중 비트(Double-Bit) 영구 ECC 오류 수 |