NVIDIA GPU 지원
와탭 쿠버네티스 에이전트의 GPU 메트릭스 수집 방법
와탭 쿠버네티스 노드 에이전트는 데이터 센터 GPU 관리자(DCGM) Exporter를 사용하여 NVIDIA GPU의 성능 메트릭을 수집하고 모니터링합니다. 해당 과정은 사이드카(Sidecar) 패턴을 활용하여 구성됩니다.
-
사이드카 패턴
DCGM Exporter는 주 애플리케이션 컨테이너와 함께 동일한 Pod 내에서 실행되는 보조 컨테이너로 설정됩니다. 이 사이드카 패턴은 DCGM Exporter가 GPU 상태 정보를 효율적으로 수집할 수 있도록 돕습니다.
-
DCGM Exporter
dcgm-exporter
컨테이너는 NVIDIA의 데이터 센터 GPU 관리자(DCGM)를 통해 GPU의 상태와 성능 관련 지표를 수집합니다.
-
메트릭 수집 및 전송
whatap-node-agent
컨테이너는dcgm-exporter
의 HTTP 엔드포인트를 통해 GPU 메트릭을 요청하고 이를 수집합니다.노트dcgm-exporter
의 HTTP 엔드포인트는 보통 포트 9400을 사용합니다.
수집 메트릭스
다음은 DCGM Exporter를 통해 수집되는 주요 GPU 메트릭스 항목들입니다.
-
DCGM_FI_DEV_GPU_UTIL Gauge
- GPU 사용률을 나타내는 메트릭으로, 현재 GPU의 사용량을 백분율로 표시합니다.
-
DCGM_FI_DEV_MEM_COPY_UTIL Gauge
- 메모리 사용률을 나타내는 메트릭으로, GPU 메모리 대역폭 사용량을 백분율로 제공합니다.
-
DCGM_FI_DEV_POWER_USAGE Gauge
- 현재 GPU의 전력 소비량을 와트(W) 단위로 표시하는 메트릭입니다.
-
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION Counter
- 시스템 부팅 이후 누적된 GPU의 총 에너지 소비량을 밀리줄(mJ) 단위로 측정합니다.
-
DCGM_FI_DEV_FB_FREE 및 DCGM_FI_DEV_FB_USED Gauge
- 사용 가능한 프레임버퍼(Frame Buffer) 메모리 용량과 현재 사용 중인 프레임버퍼 메모리 용량을 미비(MiB) 단위로 나타냅니다.
-
DCGM_FI_DEV_SM_CLOCK 및 DCGM_FI_DEV_MEM_CLOCK Gauge
- 각 GPU의 스트리밍 멀티프로세서(SM) 클럭 주파수와 메모리 클럭 주파수를 MHz 단위로 나타냅니다.
-
DCGM_FI_DEV_GPU_TEMP 및 DCGM_FI_DEV_MEMORY_TEMP Gauge
- 각 GPU의 온도와 메모리 온도를 섭씨(C) 단위로 측정합니다.