LLM 대시보드 위젯 레퍼런스
이 문서는 LLM 대시보드에서 제공하는 위젯을 대시보드 영역별로 정리한 레퍼런스입니다. 각 위젯의 차트 유형, 필터, 활용 방법을 확인할 수 있습니다. 대시보드의 전체 화면 구성과 기본 프리셋은 LLM 대시보드 문서를 참조하세요.
제공 위젯
LLM 성능 지표
| 위젯 | 설명 |
|---|---|
| LLM API 요청 수 | 시간대별 요청 건수 + 에러율 |
| 상태 코드별 요청 건수 | HTTP 상태 코드(2xx/4xx/5xx) 분포 |
| Latency 평균 | 시간대별 평균 응답 시간 추이 |
| Latency 백분위 | Latency p50·p75·p95·p99 추이 |
| Latency 백분위 개별 위젯 | 백분위수별 개별 위젯 |
| Latency 분포 비교 | 모델별 Latency 박스플롯 |
| TTFT 평균 | 시간대별 TTFT 평균 추이 |
| TTFT 백분위 | TTFT p50·p75·p95·p99 추이 |
| TTFT 백분위 개별 위젯 | 백분위수별 개별 위젯 |
| TTFT 분포 비교 | 모델별 TTFT 박스플롯 |
| TPOT 평균 | 시간대별 TPOT 평균 추이 |
| TPOT 백분위 | TPOT p50·p75·p95·p99 추이 |
| TPOT 백분위 개별 위젯 | 백분위수별 개별 위젯 |
| TPOT 분포 비교 | 모델별 TPOT 박스플롯 |
| 종합 성능 비교 | 모델별 TTFT·TPOT·Output TPS 비교 |
| 출력 토큰 처리량 | 초당 출력 토큰 수(tok/s) |
토큰 및 비용
| 위젯 | 설명 |
|---|---|
| 토큰 사용량 | 시간대별 입력·출력 토큰 추이 |
| 요청당 평균 토큰 | 요청 1건당 평균 입력·출력 토큰 |
| 토큰 사용 분포 | 모델별 입력·출력 토큰 총량 비교 |
| 금일 토큰 사용량 | 금일 누적 토큰 + 전일 대비 |
| 캐시 적중률 | 캐시 토큰 비율(%) 추이 |
| 캐시 적중률 분포 | 모델별 캐시 적중률 비교 |
| 캐시 절감 비용 | 캐싱으로 절약한 금액($) 추이 |
| 캐시 절감 비용 분포 | 모델별 캐 시 절감 비용 비교 |
| 비용 사용량 | 시간대별 입력·출력 비용($) 추이 |
| 요청당 평균 비용 | 요청 1건당 평균 비용 |
| 비용 사용 분포 | 모델별 비용 총량 비교 |
| 금일 비용 | 금일 누적 비용 + 전일 대비 |
모델별 비교·분석
| 위젯 | 설명 |
|---|---|
| 종합 성능 비교 | 모델별 TTFT·TPOT·Output TPS 비교 |
| 토큰 사용 분포 | 모델별 입력·출력 토큰 총량 비교 |
| 에러율 분포 | 모델별 에러율(%) 비교 |
| 에러 건수 | 시간대별 API 에러·프로그램 에러 건수 |
| 상태 코드별 요청 건수 | HTTP 상태 코드(4xx/5xx) 분포 |
제공 위젯 상세 설명
LLM API 요청
LLM API의 요청량과 상태 코드를 모니터링하는 위젯 그룹입니다.
LLM API 요청 수
| Property | Value |
|---|---|
| 차트 유형 | 바 차트(요청 수) + 라인 차트(에러율) 복합 |
| 필터 | 태그 필터 |
| 액션 | 개별로 보기, 병합 보기, 상세 보기 |
LLM API에 전달된 시간대별 요청 건수와 에러율(%)을 함께 표시합니다. 바 차트(좌측 Y축)는 요청량, 라인(우측 Y축)은 전체 요청 대비 에러 비율입니다.
- 요청량이 급증하면서 에러율도 함께 상승하면 Rate Limit 초과 또는 프로바이더 장애 가능성이 있습니다.
- 요청량은 변화 없는데 에러율만 상승하면 특정 모델이나 에이전트에서 문제가 발생하고 있을 수 있으므로, 개별로 보기로 원인을 좁혀볼 수 있습니다.
상태 코드별 요청 건수
| Property | Value |
|---|---|
| 차트 유형 | 스택 바 차트 |
| 필터 | 없음 |
| 액션 | 상세 보기 |
시간대별 HTTP 상태 코드 분포를 2xx(성공), 4xx(클라이언트 에러), 5xx(서버 에러)로 나누어 표시합니다.
- 4xx 증가 — 잘못된 요청 파라미터, 인증 실패, 토큰 한도 초과 등 요청 측 문제를 점검해야 합니다.
- 5xx 증가 — LLM 프로바이더 측 서버 장애나 일시적 과부하 상태를 의미합니다.
- LLM API 요청 수 위젯의 에러율과 함께 보면 에러 원인을 빠르게 분류할 수 있습니다.
LLM API 응답 성능
LLM API의 전체 응답 시간(Latency)을 다양한 관점에서 분석하는 위젯 그룹입니다. Latency는 요청을 보낸 시점부터 응답이 완전히 완료되기까지의 전체 소요 시간입니다.
Latency 평균
| Property | Value |
|---|---|
| 차트 유형 | 라인 차트 |
| 필터 | 태그 필터 |
| 액션 | 개별로 보기, 병합 보기, 상세 보기 |
시간대별 Latency 평균 추이를 표시합니다.
- Latency 평균가 전반적으로 상승하면 모델 응답 속도 저하나 네트워크 지연을 점검해야 합니다.
- 개별로 보기로 모델별 Latency를 비교하여 어떤 모델에서 지연이 발생하는지 확인할 수 있습니다.
Latency 백분위
| Property | Value |
|---|---|
| 차트 유형 | 라인 차트 (p50, p75, p95, p99 4개 시리즈) |
| 필터 | 없음 |
| 액션 | 상세 보기 |
시간대별 Latency의 백분위수 추이를 p50, p75, p95, p99 네 개 시리즈로 표시합니다. 예를 들어 p95 값이 3초이면 전체 요청 중 95%가 3초 이내에 완료되었음을 의미합니다.
- p50과 p99의 격차가 크면 대부분의 요청은 빠르지만 일부 요청에서 심한 지연이 발생하고 있다는 의미입니다.
- p50과 p99가 함께 상승하면 전체적인 성능 저하를 의미합니다.
Latency 백분위 개별 위젯
| Property | Value |
|---|---|
| 차트 유형 | 라인 차트 |
| 필터 | 태그 필터 |
| 액션 | 개별로 보기, 병합 보기, 상세 보기 |
각 백분위수를 개별 위젯으로 제공합니다. 백분위수별 의미는 다음과 같습니다.
| Percentile | Description |
|---|---|
p50 | 전체 요청 중 절반이 이 시간 이내에 완료. 일반적인 사용자가 체감하는 평균적인 응답 속도. |
p75 | 전체 요청 중 75%가 이 시간 이내에 완료. p50과의 격차로 상위 25% 요청의 추가 지연 파악. |
p95 | 전체 요청 중 95%가 이 시간 이내에 완료. SLA(서비스 수준 협약) 기준 지표로 자주 사용. |
p99 | 전체 요청 중 99%가 이 시간 이내에 완료. 가장 느린 상위 1% 요청, 시스템 안정성 판단. |
Latency 분포 비교
| Property | Value |
|---|---|
| 차트 유형 | 박스플롯 (x축: 모델) |
| 필터 | 태그 필터 (상시 노출) |
| 액션 | 상세 보기 |
태그 기준(모델 등)별로 Latency의 분포를 박스플롯으로 비교합니다. 박스 영역은 p25 ~ p75(중간 50% 범위), 중앙 선은 중앙값, 위스커는 최솟값 ~ 최댓값을 나타냅니다.
- 박스가 넓은 모델은 응답 시간 편차가 크므로 안정성 개선이 필요할 수 있습니다.
- 위스커가 길게 늘어진 모델은 간헐적으로 극단적인 지연이 발생하고 있음을 의미합니다.
- 여러 모델의 분포를 나란히 비교하여 가장 안정적인 모델을 식별할 수 있습니다.
TTFT (Time To First Token)
TTFT는 요청을 보낸 후 첫 번째 응답 토큰이 도착하기까지의 시간입니다. TTFT가 길어지면 사용자 입장에서 "응답이 시작되지 않는다"는 체감을 주게 됩니다.
TTFT 평균
| Property | Value |
|---|---|
| 차트 유형 | 라인 차트 |
| 필터 | 태그 필터 |
| 액션 | 개별로 보기, 병합 보기, 상세 보기 |
시간대별 TTFT 평균 추이를 표시합니다.
- 특정 시간대에 TTFT가 급등하면 모델 큐 대기 증가나 프로바이더 측 지연을 점검해야 합니다.
- 개별로 보기로 어떤 모델에서 초기 응답이 느린지 비교할 수 있습니다.
TTFT 백분위
| Property | Value |
|---|---|
| 차트 유형 | 라인 차트 (p50, p75, p95, p99 4개 시리즈) |
| 필터 | 없음 |
| 액션 | 상세 보기 |
시간대별 TTFT의 백분위수 추이를 p50, p75, p95, p99 네 개 시리즈로 표시합니다. 예를 들어 p95 값이 2초이면 전체 요청 중 95%가 2초 이내에 첫 토큰을 수신했음을 의미합니다.
- p50은 안정적인데 p99만 급등하면 간헐적으로 큐 대기가 발생하고 있다는 신호입니다.
- 모든 백분위가 함께 상승하면 전반적인 초기 응답 지연이 발생하고 있습니다.
TTFT 백분위 개별 위젯
| Property | Value |
|---|---|
| 차트 유형 | 라인 차트 |
| 필터 | 태그 필터 |
| 액션 | 개별로 보기, 병합 보기, 상세 보기 |
각 백분위수를 개별 위젯으로 제공합니다.
| Percentile | Description |
|---|---|
p50 | 대부분의 사용자가 체감하는 초기 응답 대기 시간. |
p75 | p50과의 격차로 상위 25% 요청의 추가 초기 지연 파악. |
p95 | "대부분의 사용자에게 이 정도 초기 응답 대기는 보장됩니다"라는 SLA 기준 지표. |
p99 | 가장 느린 상위 1%의 초기 응답 시간. 간헐적 타임아웃이나 특정 조건에서의 지연 점검. |