GPU 성능요약
홈 화면 > 프로젝트 선택 > 서버 목록 > GPU 성능요약
시스템에 연결된 GPU의 상태 및 성능 지표를 실시간으로 모니터링하고 관리할 수 있습니다. 물리 GPU와 MIG 인스턴스의 정보를 함께 확인할 수 있으며, 각 항목을 정렬하거나 필터링하여 효율적으로 사용할 수 있습니다.
지원 에이전트 버전
Linux에서만 지원되며, 에이전트 2.8.9 이상 버전이 필요합니다.
기본 화면 안내
Live 를 클릭하여 실시간 데이터를 조회하거나 일시 정지할 수 있습니다. 검색창에서 GPU 정보를 검색할 수 있습니다.
데이터 목록에서 조회 결과의 항목명을 클릭하면 오름차순 또는 내림차순으로 정렬을 변경할 수 있습니다.
- Total: 전체 GPU 인스턴스 수 (Physical + MIG 포함)
- Physical: 실제 GPU 장치 수
- MIG: MIG(Multi-Instance GPU) 인스턴스 수
GPU 정보
컬럼명 | 설명 |
---|---|
Status | 해당 GPU 인스턴스의 현재 상태 (예: Inactive , N/A ) |
HostName | GPU가 연결된 서버의 호스트명 |
GPU Index | 물리 GPU 또는 MIG 인스턴스의 고유 인덱스 (MIG 인스턴스는 0/6/0 등 형태로 표기) |
Model Name | GPU 모델명 (예: NVIDIA A100-SXM4 등) |
GPU Type | Physical 또는 MIG 중 해당 인스턴스의 종류 |
GPU 성능 지표
컬럼명 | 설명 |
---|---|
GPU_Util (%) | GPU 사용률 (%) - Physical GPU에서만 표시되며, MIG 인스턴스는 제외 |
Encoder_Util (%) | 하드웨어 인코더 사용률 (%) - Physical GPU에서만 표시 |
Decoder_Util (%) | 하드웨어 디코더 사용률 (%) - Physical GPU에서만 표시 |
GR_Engine_Active_Util (%) | GPU의 graphic 엔진 또는 compute 엔진이 활성화된 시간의 비율 - 이 메트릭은 GPU의 전반적인 활용도를 측정하는 데 사용되며, MIG 환경에서 인스턴스 간 오베헤드도 물리 GPU 사용률에 반영되어 표시됨 |
SM_Active_Util (%) | SM에서 최소 하나의 워프(Warp)가 실행된 시간 비율 - GPU에서 스레드를 개별적으로 실행하는 것이 아니라, 32개의 스레드를 묶어 Warp 단위로 실행 |
SM_Occupancy (%) | SM에서 실행할 수 있는 최대 워프(Warp) 수 대비 실제 실행 중인 워프(Warp) 수의 비율 - GPU에서는 스레드를 개별적으로 실행하는 것이 아니라, 32개의 스레드를 묶어 Warp 단위로 실행 |
Tensor_Core_Util (%) | Tensor 코어가 활성 상태였던 시간 비율 |
Memory_Copy_Util (%) | GPU의 메모리 복사 엔진(memory copy engine) 사용률 (%) - GPU와 호스트 간 또는 GPU 내부에서 메모리 전송이 얼마나 이루어지고 있는지 측정한 값 - Physical GPU에서만 값을 표시하며, MIG 인스턴스는 값이 표시되지 않음 |
DRAM_Active_Util (%) | DRAM의 Read/Write 활용률 - Physical GPU에서만 값을 표시하며, MIG 인스턴스는 값이 표시되지 않음 |
FP64_Compute_Util (%) | FP64(64비트 부동소수점) 연산 파이프의 활성 시간 비율 |
FP32_Compute_Util (%) | FP32 (32비트 부동소수점) 연산 파이프의 활성 시간 비율 |
FP16_Compute_Util (%) | FP16 (16비트 부동소수점) 연산 파이프의 활성 시간 비율 |
BAR1_Total_Memory (Bytes) | BAR1 메모리 총량 - BAR1 메모리: GPU와 CPU 간 데이터 전송 시 사용 |
BAR1_Used_Memory (Bytes) | 사용 중인 BAR1 메모리 크기 - BAR1 메모리: GPU와 CPU 간 데이터 전송 시 사용 |
BAR1_Free_Memory (Bytes) | 남은 BAR1 메모리 크기 - BAR1 메모리: GPU와 CPU 간 데이터 전송 시 사용 |
FB_Total_Memory (Bytes) | 프레임 버퍼 전체 메모리 크기 |
FB_Free_Memory (Bytes) | 프레임 버퍼 사용 가능 메모리 크기 |
FB_Used_Memory (Bytes) | 프레임 버퍼 사용 중인 메모리 크기 |
FB_Reserved_Memory (Bytes) | 예약된 프레임 버퍼 메모리 크기 |
FB_Memory_Usage (%) | 프레임 버퍼 메모리 사용률(%) |
ECC_SBE_Total | ECC SBE(Single Bit Error) 누적 합계 |
ECC_DBE_Total | ECC DBE(Double Bit Error) 누적 합계 |
GPU_Temperature (°C) | GPU의 현재 온도 |
Power_Usage (W) | GPU가 현재 사용하는 전력량 |
Performance_State (P) | 현재 GPU의 Performance State(P-State)를 0 ~ 15 사이의 숫자로만 표시 - P0 ~ P15의 값을 가지며 P0가 가장 빠름 |
Fan_Speed (%) | GPU 팬의 현재 작동 속도 비율 |
SM_Clock (MHz) | SM(Streaming Multiprocessor)의 현재 클럭 속도 |
Memory_Clock (MHz) | 메모리의 현재 클럭 속도 |
Video_Clock (MHz) | 비디오 처리를 담당하는 클럭 속도 |
PCIE_TX (Bytes/s) | GPU가 PCIe 인터페이스를 통해 전송한 데이터양 - Physical GPU만 값이 표시되고, MIG는 N/A로 표시되어 수집되지 않을 수 있음 |
PCIE_RX (Bytes/s) | GPU가 PCIe 인터페이스를 통해 수신한 데이터양 - Physical GPU만 값이 표시되고, MIG는 N/A로 표시되어 수집되지 않을 수 있음 |
NVLink_TX (Bytes/s) | NVlink를 통해 전송한 데이터양 |
NVLink_RX (Bytes/s) | NVlink를 통해 수신한 데이터양 |
CSV 다운로드
조회 결과에 대한 데이터를 csv 파일로 다운로드 받을 수 있습니다.
컬럼 설정
화면 오른쪽 상단의 컬럼 설정 버튼을 클릭하면, 컬럼 설정 창으로 이동합니다.
컬럼 설정 창에서 테이블에 표시할 표시할 컬럼을 선택할 수 있습니다.
-
전체 선택: 전체 컬럼 선택
-
기본 순서로 재설정: 컬럼 순서를 기본값으로 초기화
-
기본 선택으로 재설정: 기본 항목 선택 상태로 되돌림
선택한 컬럼은 브라우저 쿠키값으로 저장되어 페이지를 새로 고침해도 상태가 유지됩니다. 쿠키가 삭제되거나 다른 이유로 설정 오류가 발생하면 기본 항목 선택 상태로 초기화합니다.
-
컬럼 설정 창에서 컬럼 선택 후, 데이터 목록에 표시할 GPU 정보와 GPU 성능 지표를 선택하세요.
- 컬럼을 그룹별로 선택하거나 순서를 조정할 수 있습니다.
주의GPU 정보 중 Status, HostName 항목은 삭제할 수 없습니다.
-
적용 버튼을 클릭해 설정을 저장하세요.
필터 추가하기
필터 조건을 추가해 원하는 GPU를 빠르게 찾을 수 있습니다.
-
필터 검색창을 클릭하면 필터 추가하기 창이 나타납니다.
-
필터 추가하기에서 원하는 GPU 조건(필터 키, 조건)을 선택한 후, 적용 버튼을 클릭합니다.
GPU 비교하기
사용자가 비교하고 싶은 여러 GPU을 선택하면, GPU 목록 아래 비교하기 패널에서 차트로 시각적으로 비교할 수 있습니다. 원하는 최근 10분간의 데이터의 추이를 추적하고, 성능 이상 징후와 병목를 찾을 수 있습니다.
- 비교 항목은 최대 20개까지 선택할 수 있습니다.