본문으로 건너뛰기

LLM 메트릭 용어 사전

이 문서는 LLM Observability에서 사용하는 주요 메트릭과 개념을 정리한 용어 사전입니다. 대시보드, 토큰 추이, 비용 분석 등 여러 메뉴에서 공통으로 사용되는 지표의 정의와 단위를 확인할 수 있습니다.

LLM 성능 지표

Metric	Description
`Latency`	LLM API 요청을 보낸 시점부터 응답이 완전히 완료되기까지의 전체 소요 시간 (ms). 사용자가 체감하는 전체 대기 시간입니다.
`TTFT`	Time To First Token. 요청 후 첫 번째 응답 토큰이 도착하기까지의 시간 (ms). 스트리밍 환경에서 사용자가 "응답이 시작되었다"고 느끼는 시점을 결정합니다.
`TPOT`	Time Per Output Token. 출력 토큰 하나가 생성되는 데 걸리는 평균 시간 (ms). 스트리밍 응답의 부드러움을 나타내며, 높을수록 "응답이 끊기는" 느낌을 줍니다.
`Output TPS`	Tokens Per Second. 초당 생성되는 출력 토큰 수. 모델의 전체 처리량을 나타내는 지표입니다.

토큰 및 비용

Metric	Description
`Input Tokens`	프롬프트에 포함된 전체 입력 토큰 수. Cached Tokens를 포함합니다.
`Output Tokens`	모델이 생성한 응답 토큰 수. 모델과 응답 길이에 따라 비용에 직접 영향을 줍니다.
`Cached Tokens`	캐시에서 가져온 입력 토큰 수. Input Tokens의 부분집합이며, 일반 입력보다 낮은 단가가 적용됩니다.
`Cache Hit Rate`	전체 입력 토큰 중 캐시에서 가져온 토큰의 비율 (%). 높을수록 비용 절감 효과가 큽니다.
`I/O Ratio`	전체 토큰 중 출력 토큰이 차지하는 비율 (%). 워크로드의 특성(입력 위주 vs 생성 위주)을 파악하는 데 활용합니다.

백분위수

Percentile	Description
`p50`	전체 데이터의 50%가 이 값 이하. 일반적인 사용자 체감 성능을 나타냅니다.
`p75`	전체 데이터의 75%가 이 값 이하. p50과의 격차로 상위 요청의 추가 지연을 파악합니다.
`p95`	전체 데이터의 95%가 이 값 이하. SLA 기준으로 자주 사용되는 지표입니다.
`p99`	전체 데이터의 99%가 이 값 이하. 가장 느린 상위 1%의 성능, 시스템 안정성을 판단합니다.

태그 기반 필터

LLM Observability의 모든 데이터는 다음 태그 기준으로 필터링하거나 그룹화할 수 있습니다.

Tag	Description	Example
`Agent`	LLM 에이전트(애플리케이션 인스턴스)	`llm-app-01`, `llm-app-02`
`Model`	사용된 LLM 모델	`gpt-4o`, `claude-sonnet-4-20250514`
`Provider`	LLM API 프로바이더	`api.openai.com`, `api.anthropic.com`
`Operation`	LLM 호출의 Operation Type	`chat`, `completion`, `embedding`