Production Ready · E2E Verified

Agentic AI Platform
추론 파이프라인

kgateway ExtProc 라우팅 · Bifrost 거버넌스 · llm-d KV Cache · Langfuse OTel

Client

Cursor · VS Code · curl · OpenAI SDK — model: "auto"

POST /v1/chat/completions

AWS NLB internet-facing

Port 80 · us-east-2

kgateway v2.2.2 Gateway API + ExtProc LLM Router

Envoy ext_proc gRPC · 프롬프트 분류 → 모델 라우팅 결정

1단계 요청 body BUFFERED → ExtProc gRPC로 전달

2단계 프롬프트 분석 (키워드 · 길이 · 턴 수) → strong/weak 분류

3단계 model 필드 변환 + x-model-tier 헤더 설정

4단계 clear_route_cache=true → kgateway가 헤더 기반 재라우팅

x-model-tier 헤더 기반 라우팅 분기

STRONG (복잡한 프롬프트)

Bifrost 거버넌스

Semantic Cache (Redis) · Rate Limit · Cost Tracking · OTel→Langfuse

llm-d EPP KV Cache Routing

Prefix-aware · Load-aware
Redis KV Cache Index · NCCL

vLLM GLM-5

glm-4-9b-chat · p5en.48xlarge
H200×8 · TP=8 · 32K ctx · Spot

WEAK (단순 프롬프트)

Bifrost 거버넌스

Semantic Cache (Redis) · Rate Limit · Cost Tracking · OTel→Langfuse

vLLM Qwen3

Qwen2.5-Coder-3B · g6.xlarge
L4×1 · 8K ctx · Spot

관측가능성 & 거버넌스 레이어

Bifrost · llm-d · Langfuse 통합

Governance + Observability Stack

Bifrost v1.4.11

Semantic Cache — Redis 유사도 0.85+ 매칭
Rate Limiting — 분당/시간당 요청 제한
Cost Tracking — 모델별 토큰 비용 산정
Provider 라우팅 — llmd-glm5, llmd-qwen3
OTel Trace → Langfuse 전송

llm-d v1.0.23

Prefix-aware 라우팅 (KV Cache hit 87%+)
Load-aware 스코어링 (GPU 활용률)
Redis KV Cache Indexer
EPP — Endpoint Picker Provider
Session affinity (대화 컨텍스트 유지)

Langfuse v3.162.0 — OTel Observability

OTel Trace 수집 (Bifrost → OTLP)
ClickHouse 분석 엔진
프롬프트 / 응답 로그
PostgreSQL 메타데이터
모델별 latency · 토큰 · 비용 대시보드
Redis 캐시 + S3 Blob

인프라 구성

EKS Auto Mode "agentic-platform" · us-east-2

Auto Mode

general-purpose

kgateway · ExtProc · Bifrost · Langfuse

GPU MNG #1

p5en.48xlarge

H200×8 · Spot · GLM-5

GPU MNG #2

g6.xlarge

L4×1 · Spot · Qwen3

Gateway

kgateway v2.2.2

OCI · CRDs + ExtProc

스토리지

EBS gp3 (CSI)

ebs.csi.eks.amazonaws.com

추가 Addons

vpc-cni · coredns

kube-proxy · metrics-server

Agentic AI Platform추론 파이프라인

관측가능성 & 거버넌스 레이어

인프라 구성

Agentic AI Platform
추론 파이프라인