AgenticOps 메트릭 — 운영 중 관측할 Agent KPI
읽는 시간: 약 5분
AI Agent가 프로덕션에 배포되면, 시스템이 정상 응답하는가만으로는 품질을 판단할 수 없다. "사용자 의도를 정확히 이해했는가?", "올바른 도구를 호출했는가?", "답변이 충실한가?"와 같은 **사용자 지각 품질(Perceived Quality)**을 측정해야 한다. 이 문서는 Agent 운영에 필수적인 KPI 카테고리와 Langfuse·OTel 기반 계측 방법을 다룬다.
1. 왜 Agent 전용 메트릭이 필요한가
1.1 전통 APM의 한계
기존 APM(Application Performance Monitoring)은 HTTP 성공률, 응답 시간, 에러율 등 시스템 지표를 중심으로 설계되었다. 그러나 Agent는 다음과 같은 이유로 추가 메트릭이 필요하다:
| 전통 APM | Agent 품질 지표 | 격차 |
|---|---|---|
| HTTP 200 OK | 올바른 답변 여부 | 요청 성공 ≠ 결과 품질 |
| 응답 시간 (전체) | Time to First Token | streaming에서 사용자 체감 속도 다름 |
| 에러율 | Hallucination rate | LLM 오류는 HTTP 500이 아닌 정상 응답 |
| CPU/Memory | Token cost | 클라우드 LLM은 토큰 단위 과금 |
| N/A | Tool-call accuracy | 잘못된 도구 호출은 시스템 에러가 아님 |
1.2 사용자 지각 품질 vs 시스템 지표
Agent의 실제 품질은 사용자가 원하는 작업을 정확히 수행했는가로 판단되며, 이는 시스템 성공 지표와 독립적이다.
2. 핵심 KPI 카테고리
2.1 과제 성공 (Task Success)
사용자가 요청한 작업이 완료되었는가를 측정한다.
| 메트릭 | 정의 | 측정 방법 |
|---|---|---|
| Task success rate | 성공한 대화 세션 비율 | 자동 평가(goal attainment) + HITL 샘플링(10%) |
| Completion time (p50/p95) | 작업 완료까지 소요 시간 | Session duration (초) |
| Goal attainment scale | 사용자 목표 달성도 (1-5) | 명시적 피드백(thumbs up/down) 또는 LLM-as-Judge |
예시 (고객 지원 Agent):
# Langfuse 자동 평가 예시
from langfuse import Langfuse
langfuse = Langfuse()
trace = langfuse.trace(
name="customer-support-session",
session_id="sess_abc123",
metadata={"intent": "refund_request", "channel": "web"}
)
# 세션 종료 시 평가
trace.score(
name="task_success",
value=1.0, # 0.0 = 실패, 1.0 = 성공
comment="Refund processed and confirmation sent"
)
2.2 Tool Use 정확성
Agent가 올바른 도구를 정확히 호출하는지 측정한다.
| 메트릭 | 정의 | 측정 방법 |
|---|---|---|
| Tool-call accuracy | 올바른 도구를 호출한 비율 | (정확한 도구 호출 수) / (전체 도구 호출 수) |
| Tool invocation rate | 평균 도구 호출 수 / 세션 | span hierarchy 분석 |
| Tool failure rate | 도구 호출 실패 비율 | HTTP 5xx, Timeout, JSON parsing error |