GPU 메트릭
WhaTap 서버 모니터링에서 수집하는 GPU 성능 메트릭을 수집 도구별로 정리한 문서입니다. nvidia-smi만 설치된 환경과 nvidia-dcgm이 추가된 환경에서 수집 가능한 메트릭이 다릅니다.
팁
일부 메트릭은 Physical GPU에서만 값이 표시되며, MIG 인스턴스에서는 수집되지 않을 수 있습니다. 해당 메트릭은 설명에 별도로 표기했습니다.
노트
GPU 모니터링을 활성화하려면 에이전트 설정이 필요합니다. 자세한 내용은 GPU 기능 설정을 참조하세요.
nvidia-smi 메트릭
nvidia-smi만으로 수집할 수 있는 메트릭입니다.
| 메트릭 | 단위 | 설명 |
|---|---|---|
| GPU_Util | % | GPU 코어 사용률. Physical GPU에서만 표시되며, MIG 인스턴스는 제외 |
| Encoder_Util | % | 하드웨어 비디오 인코더(NVENC) 사용률. Physical GPU에서만 표시 |
| Decoder_Util | % | 하드웨어 비디오 디코더(NVDEC) 사용률. Physical GPU에서만 표시 |
| Memory_Copy_Util | % | GPU 메모리 복사 엔진 사용률. GPU와 호스트 간 또는 GPU 내부의 메모리 전송량을 측정한 값. Physical GPU에서만 표시되며, MIG 인스턴스는 값이 표시되지 않음 |
| FB_Total_Memory | Bytes | 프레임 버퍼(GPU VRAM) 전체 메모리 크기 |
| FB_Free_Memory | Bytes | 프레임 버퍼 사용 가능 메모리 크기 |
| FB_Used_Memory | Bytes | 프레임 버퍼 사용 중인 메모리 크기 |
| Performance_State | P0~P15 | GPU 성능 상태. P0이 최고 성능, P15가 최저 성능 |
| Power_Usage | W | GPU 현재 소비 전력 |
| Fan_Speed | % | GPU 팬 회전 속도 비율 |
| SM_Clock | MHz | SM(Streaming Multiprocessor) 현재 클럭 속도 |
| Memory_Clock | MHz | 메모리 현재 클럭 속도 |
| Video_Clock | MHz | 비디오 엔진 현재 클럭 속도 |
nvidia-dcgm 메트릭
nvidia-dcgm이 설치된 환경에서 추가로 수집할 수 있는 메트릭입니다. nvidia-dcgm 서비스가 활성화되어 있어야 하며, nvidia-smi 메트릭과 중복되는 항목(FB 메모리 등)도 dcgm에 서 별도로 수집합니다.
| 메트릭 | 단위 | 설명 |
|---|---|---|
| GR_Engine_Active_Util | % | GPU 그래픽/컴퓨트 엔진 활성 시간 비율. MIG 환경에서 인스턴스 간 오버헤드도 Physical GPU 사용률에 반영 |
| SM_Active_Util | % | SM에서 하나 이상의 워프(Warp)가 실행 중인 시간 비율. GPU는 32개 스레드를 워프 단위로 실행 |
| SM_Occupancy | % | SM에서 실행 가능한 최대 워프 수 대비 실제 실행 중인 워프 수의 비율 |
| Tensor_Core_Util | % | 텐서 코어 활성 시간 비율 |
| DRAM_Active_Util | % | GPU 메모리(DRAM) Read/Write 사용률. Physical GPU에서만 표시되며, MIG 인스턴스는 값이 표시되지 않음 |
| FP64_Compute_Util | % | FP64(64비트 배정밀도) 연산 파이프라인 활성 시간 비율 |
| FP32_Compute_Util | % | FP32(32비트 단정밀도) 연산 파이프라인 활성 시간 비율 |
| FP16_Compute_Util | % | FP16(16비트 반정밀도) 연산 파이프라인 활성 시간 비율 |
| BAR1_Total_Memory | Bytes | BAR1 메모리 총량. BAR1은 GPU와 CPU 간 데이터 전송에 사용 |
| BAR1_Used_Memory | Bytes | BAR1 메모리 사용 중 크기 |
| BAR1_Free_Memory | Bytes | BAR1 메모리 남은 크기 |
| FB_Reserved_Memory | Bytes | 프레임 버퍼 예약 메모리 크기 |
| FB_Memory_Usage | % | 프레임 버퍼 메모리 사용률 |
| ECC_SBE_Total | Count | ECC 단일 비트 오류(Single Bit Error) 누적 횟수 |
| ECC_DBE_Total | Count | ECC 이중 비트 오류(Double Bit Error) 누적 횟수 |
| GPU_Temperature | °C | GPU 현재 온도 |
| PCIe_TX | Bytes/s | PCIe 인터페이스를 통한 송신 데이터량. Physical GPU에서만 표시되며, MIG는 수집되지 않을 수 있음 |
| PCIe_RX | Bytes/s | PCIe 인터페이스를 통한 수신 데이터량. Physical GPU에서만 표시되며, MIG는 수집되지 않을 수 있음 |
| NVLink_TX | Bytes/s | NVLink를 통한 송신 데이터량 |
| NVLink_RX | Bytes/s | NVLink를 통한 수신 데이터량 |