본문으로 건너뛰기

6개 문서가 "inference-gateway" 태그에 분류되었습니다

모든 태그 보기

Cascade Routing 실전 튜닝

Inference Gateway Cascade Routing의 분류 임계값·Canary 롤아웃·Fallback·비용 드리프트 경보를 프로덕션 trace 기반으로 튜닝하는 가이드

Semantic Caching 전략

LLM Gateway 레벨 의미 기반 캐싱 전략과 구현 옵션 비교 (GPTCache, Redis Semantic Cache, Portkey, Helicone, Bifrost+Redis)

추론 게이트웨이

kgateway·Bifrost 기반 2-Tier 추론 게이트웨이의 라우팅 전략·배포·캐스케이드 튜닝·구현 예시

티어드 게이트웨이 아키텍처

Agentic AI 플랫폼의 게이트웨이 계층 단일 정의: Tier 1 Ingress, Tier 2 추론 라우팅(Inference Extension)과 LLM API 게이트웨이, Agent Data Plane의 역할 구분과 채움 전략