LLM 토큰 추이 분석
토큰 추이는 LLM API의 토큰 사용 패턴과 처리 효율을 시계열 기반으로 분석하는 메뉴입니다. 대시보드가 현재 상태 모니터링에 초점을 맞춘다면, 이 페이지는 구간별 추이 비교와 모델/에이전트 간 상세 분석에 활용됩니다.
상단 옵션바에서 시간 범위, 필터, 검색 조건을 설정한 뒤 위젯 데이터를 조회합니다. 차트 드래그로 구간을 좁히거나, 차트/박스플롯 클릭으로 프롬프트 로그 페이지로 이동할 수 있습니다.

토큰 사용량
| Property | Value |
|---|---|
| 차트 유형 | 라인 차트 (Input, Output 2개 시리즈) |
| 필터 | 태그 필터 |
| 액션 | 개별로 보기, 병합 보기, 상세 보기 |
시간대별 Input(입력) 토큰 수와 Output(출력) 토큰 수의 추이를 표시합니다. Input 토큰은 프롬프트 에 포함된 토큰, Output 토큰은 모델이 생성한 응답 토큰입니다.
- 특정 시간대에 토큰 사용량이 급증하면 트래픽 변화, 프롬프트 변경, 또는 비정상 요청 유입을 점검하세요.
- Input과 Output의 비중 변화를 통해 워크로드 특성(입력 위주 vs 생성 위주)의 변화를 파악할 수 있습니다.
- 개별로 보기로 어떤 모델이나 에이전트에 토큰 소비가 집중되는지 확인할 수 있습니다.
I/O 비율 추이
| Property | Value |
|---|---|
| 차트 유형 | 라인 차트 (%, 영역 채움) |
| 필터 | 태그 필터 |
| 액션 | 개별로 보기, 병합 보기, 상세 보기 |
I/O 비율은 전체 토큰(Input + Output) 중 Output 토큰이 차지하는 비율(%)입니다. 50% 기준선(점선)이 함께 표시됩니다.
- 50% 이상: 응답 생성 비중이 높은 워크로드입니다. 요약, 코드 생성 등 출력이 긴 작업이 많습니다.
- 50% 이하: 입력 비중이 높은 워크로드입니다. 분류, 임베딩, RAG 검색 등 프롬프트가 긴 작업이 많습니다.
- 비율이 갑자기 변하면 워크로드 패턴이나 프롬프트 구조가 변경되었을 가능성이 있으므로 점검하세요.
I/O 비율 = output_tokens 합계 / (input_tokens 합계 + output_tokens 합계) x 100
TTFT 백분위
| Property | Value |
|---|---|
| 차트 유형 | 라인 차트 (p50, p75, p95, p99 4개 시리즈) |
| 필터 | 태그 필터 |
| 액션 | 개별로 보기, 병합 보기, 상세 보기, 백분위 선택 |
TTFT(Time To First Token)의 백분위수 추이를 표시합니다. 토큰 사용량이 급증하는 구간에서 TTFT도 함께 상승하면, 토큰 규모 증가가 초기 응답 지연에 영향을 미치고 있다는 의미입니다.
- p50은 안정적인데 p99만 급등하면 간헐적으로 큐 대기나 프로바이더 지연이 발생하고 있다는 신호입니다.
- 이상 구간을 발견하면 TTFT 분포 비교에서 어떤 모델이 원인인지 확인할 수 있습니다.
TPOT 백분위
| Property | Value |
|---|---|
| 차트 유형 | 라인 차트 (p50, p75, p95, p99 4개 시리즈) |
| 필터 | 태그 필터 |
| 액션 | 개별로 보기, 병합 보기, 상세 보기, 백분위 선택 |
TPOT(Time Per Output Token)의 백분위수 추이를 표시합니다. TTFT 백분위와 함께 보면 "첫 토큰도 느리고 생성도 느린 구간"과 "첫 토큰은 빠르지만 생성이 느린 구간"을 구분할 수 있습니다.
- p99가 급등하면 간헐적으로 토큰 생성이 멈추거나 크게 느려지는 요청이 존재한다는 의미입니다.
- 이상 구간을 발견하면 TPOT 분포 비교에서 어떤 모델이 원인인지 확인할 수 있습니다.
TTFT 분포 비교
| Property | Value |
|---|---|
| 차트 유형 | 박스플롯 (x축: 모델) |
| 필터 | 태그 필터 (상시 노출) |
| 액션 | 상세 보기 |
태그 기준(모델 등)별로 TTFT의 분포를 박스플롯으로 비교합니다. 박스 영역은 p25p75(중간 50% 범위), 중앙 선은 중앙값, 위스커는 최솟값최댓값을 나타냅니다.
- 중앙값이 낮고 박스가 좁은 모델이 가장 안정적으로 빠른 초기 응답을 제공합니다.
- 위스커가 길게 늘어진 모델은 간헐적으로 극단적인 초기 지연이 발생합니다.
- 모델을 클릭하면 해당 모델의 프롬프트 로그로 이동합니다.