본문으로 건너뛰기

LLM 토큰 추이 분석

토큰 추이는 LLM API의 토큰 사용 패턴과 처리 효율을 시계열 기반으로 분석하는 메뉴입니다. 대시보드가 현재 상태 모니터링에 초점을 맞춘다면, 이 페이지는 구간별 추이 비교모델/에이전트 간 상세 분석에 활용됩니다.

상단 옵션바에서 시간 범위, 필터, 검색 조건을 설정한 뒤 위젯 데이터를 조회합니다. 차트 드래그로 구간을 좁히거나, 차트/박스플롯 클릭으로 프롬프트 로그 페이지로 이동할 수 있습니다.

토큰 추이

토큰 사용량

PropertyValue
차트 유형라인 차트 (Input, Output 2개 시리즈)
필터태그 필터
액션개별로 보기, 병합 보기, 상세 보기

시간대별 Input(입력) 토큰 수와 Output(출력) 토큰 수의 추이를 표시합니다. Input 토큰은 프롬프트에 포함된 토큰, Output 토큰은 모델이 생성한 응답 토큰입니다.

  • 특정 시간대에 토큰 사용량이 급증하면 트래픽 변화, 프롬프트 변경, 또는 비정상 요청 유입을 점검하세요.
  • Input과 Output의 비중 변화를 통해 워크로드 특성(입력 위주 vs 생성 위주)의 변화를 파악할 수 있습니다.
  • 개별로 보기로 어떤 모델이나 에이전트에 토큰 소비가 집중되는지 확인할 수 있습니다.

I/O 비율 추이

PropertyValue
차트 유형라인 차트 (%, 영역 채움)
필터태그 필터
액션개별로 보기, 병합 보기, 상세 보기

I/O 비율은 전체 토큰(Input + Output) 중 Output 토큰이 차지하는 비율(%)입니다. 50% 기준선(점선)이 함께 표시됩니다.

  • 50% 이상: 응답 생성 비중이 높은 워크로드입니다. 요약, 코드 생성 등 출력이 긴 작업이 많습니다.
  • 50% 이하: 입력 비중이 높은 워크로드입니다. 분류, 임베딩, RAG 검색 등 프롬프트가 긴 작업이 많습니다.
  • 비율이 갑자기 변하면 워크로드 패턴이나 프롬프트 구조가 변경되었을 가능성이 있으므로 점검하세요.
계산식

I/O 비율 = output_tokens 합계 / (input_tokens 합계 + output_tokens 합계) x 100

TTFT 백분위

PropertyValue
차트 유형라인 차트 (p50, p75, p95, p99 4개 시리즈)
필터태그 필터
액션개별로 보기, 병합 보기, 상세 보기, 백분위 선택

TTFT(Time To First Token)의 백분위수 추이를 표시합니다. 토큰 사용량이 급증하는 구간에서 TTFT도 함께 상승하면, 토큰 규모 증가가 초기 응답 지연에 영향을 미치고 있다는 의미입니다.

  • p50은 안정적인데 p99만 급등하면 간헐적으로 큐 대기나 프로바이더 지연이 발생하고 있다는 신호입니다.
  • 이상 구간을 발견하면 TTFT 분포 비교에서 어떤 모델이 원인인지 확인할 수 있습니다.

TPOT 백분위

PropertyValue
차트 유형라인 차트 (p50, p75, p95, p99 4개 시리즈)
필터태그 필터
액션개별로 보기, 병합 보기, 상세 보기, 백분위 선택

TPOT(Time Per Output Token)의 백분위수 추이를 표시합니다. TTFT 백분위와 함께 보면 "첫 토큰도 느리고 생성도 느린 구간"과 "첫 토큰은 빠르지만 생성이 느린 구간"을 구분할 수 있습니다.

  • p99가 급등하면 간헐적으로 토큰 생성이 멈추거나 크게 느려지는 요청이 존재한다는 의미입니다.
  • 이상 구간을 발견하면 TPOT 분포 비교에서 어떤 모델이 원인인지 확인할 수 있습니다.

TTFT 분포 비교

PropertyValue
차트 유형박스플롯 (x축: 모델)
필터태그 필터 (상시 노출)
액션상세 보기

태그 기준(모델 등)별로 TTFT의 분포를 박스플롯으로 비교합니다. 박스 영역은 p25p75(중간 50% 범위), 중앙 선은 중앙값, 위스커는 최솟값최댓값을 나타냅니다.

  • 중앙값이 낮고 박스가 좁은 모델이 가장 안정적으로 빠른 초기 응답을 제공합니다.
  • 위스커가 길게 늘어진 모델은 간헐적으로 극단적인 초기 지연이 발생합니다.
  • 모델을 클릭하면 해당 모델의 프롬프트 로그로 이동합니다.

TPOT 분포 비교

PropertyValue
차트 유형박스플롯 (x축: 모델)
필터태그 필터 (상시 노출)
액션상세 보기

태그 기준(모델 등)별로 TPOT의 분포를 박스플롯으로 비교합니다.

  • 중앙값이 낮고 박스가 좁은 모델이 가장 안정적인 스트리밍 성능을 제공합니다.
  • 위스커가 길게 늘어진 모델은 간헐적으로 토큰 생성이 크게 느려지는 현상이 발생합니다.

출력 토큰 처리량

PropertyValue
차트 유형라인 차트
필터태그 필터
액션개별로 보기, 병합 보기, 상세 보기

초당 생성되는 출력 토큰 수(Tokens Per Second)를 나타내는 처리량 지표입니다.

  • 처리량이 떨어지는 구간은 모델 응답 병목 또는 Rate Limit 영향을 점검하세요.
  • 토큰 사용량과 함께 보면 "토큰은 많이 사용하는데 처리 속도가 느린 구간"을 식별할 수 있습니다.
  • 개별로 보기로 모델별 처리량을 비교할 수 있습니다.

캐시 적중률 추이

PropertyValue
차트 유형라인 차트 (%, 영역 채움)
필터태그 필터
액션개별로 보기, 병합 보기, 상세 보기

전체 입력 토큰 중 캐시에서 가져온 토큰의 비율(%)을 시간대별로 표시합니다.

  • 적중률이 높을수록 프롬프트 캐싱이 효과적으로 동작하고 있으며, 비용 절감 효과가 큽니다.
  • 적중률이 갑자기 하락하면 프롬프트 내용 변경, 캐시 TTL 만료, 또는 새로운 유형의 요청 유입을 점검하세요.
  • 개별로 보기로 모델별 캐시 효율을 비교하여, 어떤 모델에서 캐싱이 가장 효과적인지 확인할 수 있습니다.
계산식

캐시 적중률 = (cached_tokens 합계 / input_tokens 합계) x 100

요청당 평균 토큰

PropertyValue
차트 유형라인 차트 (Input, Output 2개 시리즈, 영역 채움)
필터태그 필터
액션개별로 보기, 병합 보기, 상세 보기

요청 1건당 사용된 평균 Input/Output 토큰 수의 시간대별 추이를 표시합니다.

  • 요청당 Input 토큰이 급증하면 프롬프트 길이가 길어졌거나 긴 컨텍스트가 포함되기 시작했을 수 있습니다.
  • 요청당 Output 토큰이 급증하면 응답 길이가 늘어난 것으로, 비용 증가에 직접 영향을 줍니다.
  • 토큰 사용량이 증가할 때 이 위젯의 수치도 함께 증가하면 요청당 크기가 커진 것이고, 토큰 사용량만 증가하면 단순히 요청 수가 늘어난 것입니다.

토큰 분석

PropertyValue
차트 유형테이블
필터Agent / Model / Provider 탭 전환
액션상세 보기, CSV 다운로드, 컬럼 설정

태그 기준(Agent, Model, Provider)별로 토큰 사용량, 캐시, 비용 핵심 지표를 테이블로 정리합니다.

ColumnDescription
Name태그 값 (에이전트명, 모델명, 프로바이더명)
Requests요청 건수
Total Input입력 토큰 총량
Total Output출력 토큰 총량
Total Tokens전체 토큰 총량
I/O Ratio (%)출력 토큰 비율
Cached Tokens캐시 토큰 총량
Cache Hit (%)캐시 적중률
Cached Cost ($)캐시 토큰 비용
Input Cost ($)입력 비용
Output Cost ($)출력 비용
Total Cost ($)전체 비용
  • Total Tokens가 높은 항목은 전체 비용에서 가장 큰 비중을 차지하므로 최적화 우선 대상입니다.
  • I/O Ratio가 높은 항목은 출력 위주 워크로드로 Output 토큰 단가의 영향을 크게 받습니다.
  • Cache Hit가 낮은 항목은 캐싱 전략을 점검하여 비용 절감 여지를 확인하세요.
  • Total Cost를 기준으로 정렬하면 비용 최적화 우선순위를 빠르게 파악할 수 있습니다.
  • 오른쪽 상단의 다운로드 버튼으로 현재 데이터를 CSV로 내보낼 수 있습니다.
  • 컬럼 설정으로 표시할 컬럼을 선택할 수 있습니다.

참고

대시보드와의 차이

항목LLM 대시보드토큰 추이
시간 모드실시간(Live) + 과거 시점과거 구간(Range) 전용
주요 목적현재 상태 모니터링구간별 추이 분석
필터에이전트 선택복합 조건 필터 (Agent, Model, Provider, Operation, URL)
프롬프트 로그 연동없음차트 클릭 시 프롬프트 로그 이동
데이터 내보내기없음CSV 다운로드 지원