LLM 메트릭 용어 사전
이 문서는 LLM Observability에서 사용하는 주요 메트릭과 개념을 정리한 용어 사전입니다. 대시보드, 토큰 추이, 비용 분석 등 여러 메뉴에서 공통으로 사용되는 지표의 정의와 단위를 확인할 수 있습니다.
LLM 성능 지표
| Metric | Description |
|---|---|
Latency | LLM API 요청을 보낸 시점부터 응답이 완전히 완료되기까지의 전체 소요 시간 (ms). 사용자가 체감하는 전체 대기 시간입니다. |
TTFT | Time To First Token. 요청 후 첫 번째 응답 토큰이 도착하기까지의 시간 (ms). 스트리밍 환경에서 사용자가 "응답이 시작되었다"고 느끼는 시점을 결정합니다. |
TPOT | Time Per Output Token. 출력 토큰 하나가 생성되는 데 걸리는 평균 시간 (ms). 스트리밍 응답의 부드러움을 나타내며, 높을수록 "응답이 끊기는" 느낌을 줍니다. |
Output TPS | Tokens Per Second. 초당 생성되는 출력 토큰 수. 모델의 전체 처리량을 나타내는 지표입니다. |