본문으로 건너뛰기

GPU 메트릭

WhaTap 서버 모니터링에서 수집하는 GPU 성능 메트릭을 수집 도구별로 정리한 문서입니다. nvidia-smi만 설치된 환경과 nvidia-dcgm이 추가된 환경에서 수집 가능한 메트릭이 다릅니다.

일부 메트릭은 Physical GPU에서만 값이 표시되며, MIG 인스턴스에서는 수집되지 않을 수 있습니다. 해당 메트릭은 설명에 별도로 표기했습니다.

노트

GPU 모니터링을 활성화하려면 에이전트 설정이 필요합니다. 자세한 내용은 GPU 기능 설정을 참조하세요.

nvidia-smi 메트릭

nvidia-smi만으로 수집할 수 있는 메트릭입니다.

메트릭단위설명
GPU_Util%GPU 코어 사용률. Physical GPU에서만 표시되며, MIG 인스턴스는 제외
Encoder_Util%하드웨어 비디오 인코더(NVENC) 사용률. Physical GPU에서만 표시
Decoder_Util%하드웨어 비디오 디코더(NVDEC) 사용률. Physical GPU에서만 표시
Memory_Copy_Util%GPU 메모리 복사 엔진 사용률. GPU와 호스트 간 또는 GPU 내부의 메모리 전송량을 측정한 값. Physical GPU에서만 표시되며, MIG 인스턴스는 값이 표시되지 않음
FB_Total_MemoryBytes프레임 버퍼(GPU VRAM) 전체 메모리 크기
FB_Free_MemoryBytes프레임 버퍼 사용 가능 메모리 크기
FB_Used_MemoryBytes프레임 버퍼 사용 중인 메모리 크기
Performance_StateP0~P15GPU 성능 상태. P0이 최고 성능, P15가 최저 성능
Power_UsageWGPU 현재 소비 전력
Fan_Speed%GPU 팬 회전 속도 비율
SM_ClockMHzSM(Streaming Multiprocessor) 현재 클럭 속도
Memory_ClockMHz메모리 현재 클럭 속도
Video_ClockMHz비디오 엔진 현재 클럭 속도

nvidia-dcgm 메트릭

nvidia-dcgm이 설치된 환경에서 추가로 수집할 수 있는 메트릭입니다. nvidia-dcgm 서비스가 활성화되어 있어야 하며, nvidia-smi 메트릭과 중복되는 항목(FB 메모리 등)도 dcgm에서 별도로 수집합니다.

메트릭단위설명
GR_Engine_Active_Util%GPU 그래픽/컴퓨트 엔진 활성 시간 비율. MIG 환경에서 인스턴스 간 오버헤드도 Physical GPU 사용률에 반영
SM_Active_Util%SM에서 하나 이상의 워프(Warp)가 실행 중인 시간 비율. GPU는 32개 스레드를 워프 단위로 실행
SM_Occupancy%SM에서 실행 가능한 최대 워프 수 대비 실제 실행 중인 워프 수의 비율
Tensor_Core_Util%텐서 코어 활성 시간 비율
DRAM_Active_Util%GPU 메모리(DRAM) Read/Write 사용률. Physical GPU에서만 표시되며, MIG 인스턴스는 값이 표시되지 않음
FP64_Compute_Util%FP64(64비트 배정밀도) 연산 파이프라인 활성 시간 비율
FP32_Compute_Util%FP32(32비트 단정밀도) 연산 파이프라인 활성 시간 비율
FP16_Compute_Util%FP16(16비트 반정밀도) 연산 파이프라인 활성 시간 비율
BAR1_Total_MemoryBytesBAR1 메모리 총량. BAR1은 GPU와 CPU 간 데이터 전송에 사용
BAR1_Used_MemoryBytesBAR1 메모리 사용 중 크기
BAR1_Free_MemoryBytesBAR1 메모리 남은 크기
FB_Reserved_MemoryBytes프레임 버퍼 예약 메모리 크기
FB_Memory_Usage%프레임 버퍼 메모리 사용률
ECC_SBE_TotalCountECC 단일 비트 오류(Single Bit Error) 누적 횟수
ECC_DBE_TotalCountECC 이중 비트 오류(Double Bit Error) 누적 횟수
GPU_Temperature°CGPU 현재 온도
PCIe_TXBytes/sPCIe 인터페이스를 통한 송신 데이터량. Physical GPU에서만 표시되며, MIG는 수집되지 않을 수 있음
PCIe_RXBytes/sPCIe 인터페이스를 통한 수신 데이터량. Physical GPU에서만 표시되며, MIG는 수집되지 않을 수 있음
NVLink_TXBytes/sNVLink를 통한 송신 데이터량
NVLink_RXBytes/sNVLink를 통한 수신 데이터량