본문으로 건너뛰기

LLM 메트릭 용어 사전

이 문서는 LLM Observability에서 사용하는 주요 메트릭과 개념을 정리한 용어 사전입니다. 대시보드, 토큰 추이, 비용 분석 등 여러 메뉴에서 공통으로 사용되는 지표의 정의와 단위를 확인할 수 있습니다.

LLM 성능 지표

MetricDescription
LatencyLLM API 요청을 보낸 시점부터 응답이 완전히 완료되기까지의 전체 소요 시간 (ms). 사용자가 체감하는 전체 대기 시간입니다.
TTFTTime To First Token. 요청 후 첫 번째 응답 토큰이 도착하기까지의 시간 (ms). 스트리밍 환경에서 사용자가 "응답이 시작되었다"고 느끼는 시점을 결정합니다.
TPOTTime Per Output Token. 출력 토큰 하나가 생성되는 데 걸리는 평균 시간 (ms). 스트리밍 응답의 부드러움을 나타내며, 높을수록 "응답이 끊기는" 느낌을 줍니다.
Output TPSTokens Per Second. 초당 생성되는 출력 토큰 수. 모델의 전체 처리량을 나타내는 지표입니다.

토큰 및 비용

MetricDescription
Input Tokens프롬프트에 포함된 전체 입력 토큰 수. Cached Tokens를 포함합니다.
Output Tokens모델이 생성한 응답 토큰 수. 모델과 응답 길이에 따라 비용에 직접 영향을 줍니다.
Cached Tokens캐시에서 가져온 입력 토큰 수. Input Tokens의 부분집합이며, 일반 입력보다 낮은 단가가 적용됩니다.
Cache Hit Rate전체 입력 토큰 중 캐시에서 가져온 토큰의 비율 (%). 높을수록 비용 절감 효과가 큽니다.
I/O Ratio전체 토큰 중 출력 토큰이 차지하는 비율 (%). 워크로드의 특성(입력 위주 vs 생성 위주)을 파악하는 데 활용합니다.

백분위수

PercentileDescription
p50전체 데이터의 50%가 이 값 이하. 일반적인 사용자 체감 성능을 나타냅니다.
p75전체 데이터의 75%가 이 값 이하. p50과의 격차로 상위 요청의 추가 지연을 파악합니다.
p95전체 데이터의 95%가 이 값 이하. SLA 기준으로 자주 사용되는 지표입니다.
p99전체 데이터의 99%가 이 값 이하. 가장 느린 상위 1%의 성능, 시스템 안정성을 판단합니다.

태그 기반 필터

LLM Observability의 모든 데이터는 다음 태그 기준으로 필터링하거나 그룹화할 수 있습니다.

TagDescriptionExample
AgentLLM 에이전트(애플리케이션 인스턴스)llm-app-01, llm-app-02
Model사용된 LLM 모델gpt-4o, claude-sonnet-4-20250514
ProviderLLM API 프로바이더api.openai.com, api.anthropic.com
OperationLLM 호출의 Operation Typechat, completion, embedding