Production Ready · E2E Verified

Agentic AI Platform
추론 파이프라인

kgateway ExtProc 라우팅 · Bifrost 거버넌스 · llm-d KV Cache · Langfuse OTel

Client
Cursor · VS Code · curl · OpenAI SDK — model: "auto"
POST /v1/chat/completions
AWS NLB internet-facing
Port 80 · us-east-2
kgateway v2.2.2 Gateway API + ExtProc LLM Router
Envoy ext_proc gRPC · 프롬프트 분류 → 모델 라우팅 결정
1단계 요청 body BUFFERED → ExtProc gRPC로 전달
2단계 프롬프트 분석 (키워드 · 길이 · 턴 수) → strong/weak 분류
3단계 model 필드 변환 + x-model-tier 헤더 설정
4단계 clear_route_cache=true → kgateway가 헤더 기반 재라우팅
x-model-tier 헤더 기반 라우팅 분기
STRONG (복잡한 프롬프트)
Bifrost 거버넌스
Semantic Cache (Redis) · Rate Limit · Cost Tracking · OTel→Langfuse
llm-d EPP KV Cache Routing
Prefix-aware · Load-aware
Redis KV Cache Index · NCCL
vLLM GLM-5
glm-4-9b-chat · p5en.48xlarge
H200×8 · TP=8 · 32K ctx · Spot
WEAK (단순 프롬프트)
Bifrost 거버넌스
Semantic Cache (Redis) · Rate Limit · Cost Tracking · OTel→Langfuse
vLLM Qwen3
Qwen2.5-Coder-3B · g6.xlarge
L4×1 · 8K ctx · Spot

관측가능성 & 거버넌스 레이어

Bifrost · llm-d · Langfuse 통합

Governance + Observability Stack
Bifrost v1.4.11
  • Semantic Cache — Redis 유사도 0.85+ 매칭
  • Rate Limiting — 분당/시간당 요청 제한
  • Cost Tracking — 모델별 토큰 비용 산정
  • Provider 라우팅 — llmd-glm5, llmd-qwen3
  • OTel Trace → Langfuse 전송
llm-d v1.0.23
  • Prefix-aware 라우팅 (KV Cache hit 87%+)
  • Load-aware 스코어링 (GPU 활용률)
  • Redis KV Cache Indexer
  • EPP — Endpoint Picker Provider
  • Session affinity (대화 컨텍스트 유지)
Langfuse v3.162.0 — OTel Observability
  • OTel Trace 수집 (Bifrost → OTLP)
  • ClickHouse 분석 엔진
  • 프롬프트 / 응답 로그
  • PostgreSQL 메타데이터
  • 모델별 latency · 토큰 · 비용 대시보드
  • Redis 캐시 + S3 Blob

인프라 구성

EKS Auto Mode "agentic-platform" · us-east-2

Auto Mode
general-purpose
kgateway · ExtProc · Bifrost · Langfuse
GPU MNG #1
p5en.48xlarge
H200×8 · Spot · GLM-5
GPU MNG #2
g6.xlarge
L4×1 · Spot · Qwen3
Gateway
kgateway v2.2.2
OCI · CRDs + ExtProc
스토리지
EBS gp3 (CSI)
ebs.csi.eks.amazonaws.com
추가 Addons
vpc-cni · coredns
kube-proxy · metrics-server