LLMOps Observability 비교 가이드
1. 개요
1.1 전통적 APM이 LLM 워크로드에서 부족한 이유
전통적인 Application Performance Monitoring (APM) 도구들은 LLM 기반 애플리케이션의 특수한 요구사항을 충족하지 못합니다:
- 토큰 비용 추적 불가: 기존 APM은 CPU/메모리 사용량만 측정하며, LLM API 호출의 실제 비용인 입력/출력 토큰 수와 프로바이더별 가격을 추적하지 못합니다
- 프롬프트 품질 평가 부재: HTTP 요청/응답 본문은 기록하지만, 프롬프트 템플릿 버전 관리, A/B 테스트, 품질 평가 메트릭이 없습니다
- 체인 추적의 한계: LangChain/LlamaIndex 같은 프레임워크의 복잡한 체인(Chain)과 에이전트 워크플로우는 단순 HTTP trace로는 가시성 확보가 어렵습니다
- 의미론적 컨텍스트 부족: 단순 latency/throughput만 측정할 뿐, "답변이 정확한가?", "환각(hallucination)이 발생했는가?"와 같은 의미론적 품질을 평가하지 못합니다
1.2 LLMOps Observability의 4가지 핵심 영역
LLMOps Observability는 다음 네 가지 영역을 통합적으로 다룹니다:
- Tracing: 전체 요청 라이프사이클 추적 (프롬프트 → LLM → 응답), 중첩된 체인/에이전트 단계별 가시성
- Evaluation: 자동/수동 평가를 통한 응답 품질 측정 (정확도, 충실도, 관련성, 독성 등)
- Prompt Management: 프롬프트 템플릿 버전 관리, A/B 테스트, 프로덕션 배포 파이프라인
- Cost Tracking: 프로바이더별/모델별 토큰 비용 실시간 집계, 팀/프로젝트별 예산 관리
1.3 주요 목표
이 문서는 다음을 제공합니다:
- 3대 LLMOps Observability 솔루션 (Langfuse, LangSmith, Helicone) 심층 비교
- 하이브리드 아키텍처 설계: Gateway (Bifrost/kgateway) + Observability (Langfuse) 분리 전략
- EKS 셀프호스트 배포: Langfuse를 Aurora PostgreSQL + ClickHouse와 연동
- OpenTelemetry 통합: 기존 APM과 LLMOps Observability 통합 대시보드
- 평가 파이프라인: Ragas와 연계한 RAG 품질 자동 평가