Production Ready · E2E Verified
Agentic AI Platform
추론 파이프라인
kgateway ExtProc 라우팅 · Bifrost 거버넌스 · llm-d KV Cache · Langfuse OTel
Client
Cursor · VS Code · curl · OpenAI SDK —
model: "auto"POST /v1/chat/completions
AWS NLB internet-facing
Port 80 · us-east-2
kgateway v2.2.2 Gateway API + ExtProc LLM Router
Envoy ext_proc gRPC · 프롬프트 분류 → 모델 라우팅 결정
1단계 요청 body BUFFERED → ExtProc gRPC로 전달
2단계 프롬프트 분석 (키워드 · 길이 · 턴 수) → strong/weak 분류
3단계
model 필드 변환 + x-model-tier 헤더 설정4단계
clear_route_cache=true → kgateway가 헤더 기반 재라우팅x-model-tier 헤더 기반 라우팅 분기
STRONG (복잡한 프롬프트)
Bifrost 거버넌스
Semantic Cache (Redis) · Rate Limit · Cost Tracking · OTel→Langfuse
llm-d EPP KV Cache Routing
Prefix-aware · Load-aware
Redis KV Cache Index · NCCL
Redis KV Cache Index · NCCL
vLLM GLM-5
glm-4-9b-chat · p5en.48xlarge
H200×8 · TP=8 · 32K ctx · Spot
H200×8 · TP=8 · 32K ctx · Spot
WEAK (단순 프롬프트)
Bifrost 거버넌스
Semantic Cache (Redis) · Rate Limit · Cost Tracking · OTel→Langfuse
vLLM Qwen3
Qwen2.5-Coder-3B · g6.xlarge
L4×1 · 8K ctx · Spot
L4×1 · 8K ctx · Spot
관측가능성 & 거버넌스 레이어
Bifrost · llm-d · Langfuse 통합
Governance + Observability Stack
Bifrost v1.4.11
- Semantic Cache — Redis 유사도 0.85+ 매칭
- Rate Limiting — 분당/시간당 요청 제한
- Cost Tracking — 모델별 토큰 비용 산정
- Provider 라우팅 — llmd-glm5, llmd-qwen3
- OTel Trace → Langfuse 전송
llm-d v1.0.23
- Prefix-aware 라우팅 (KV Cache hit 87%+)
- Load-aware 스코어링 (GPU 활용률)
- Redis KV Cache Indexer
- EPP — Endpoint Picker Provider
- Session affinity (대화 컨텍스트 유지)
Langfuse v3.162.0 — OTel Observability
- OTel Trace 수집 (Bifrost → OTLP)
- ClickHouse 분석 엔진
- 프롬프트 / 응답 로그
- PostgreSQL 메타데이터
- 모델별 latency · 토큰 · 비용 대시보드
- Redis 캐시 + S3 Blob
인프라 구성
EKS Auto Mode "agentic-platform" · us-east-2
Auto Mode
general-purpose
kgateway · ExtProc · Bifrost · Langfuse
GPU MNG #1
p5en.48xlarge
H200×8 · Spot · GLM-5
GPU MNG #2
g6.xlarge
L4×1 · Spot · Qwen3
Gateway
kgateway v2.2.2
OCI · CRDs + ExtProc
스토리지
EBS gp3 (CSI)
ebs.csi.eks.amazonaws.com
추가 Addons
vpc-cni · coredns
kube-proxy · metrics-server