본문으로 건너뛰기

5개 문서가 "inference-gateway" 태그에 분류되었습니다

모든 태그 보기

Cascade Routing 실전 튜닝

Inference Gateway Cascade Routing의 분류 임계값·Canary 롤아웃·Fallback·비용 드리프트 경보를 프로덕션 trace 기반으로 튜닝하는 가이드

Semantic Caching 전략

LLM Gateway 레벨 의미 기반 캐싱 전략과 구현 옵션 비교 (GPTCache, Redis Semantic Cache, Portkey, Helicone, Bifrost+Redis)

추론 게이트웨이

kgateway·Bifrost 기반 2-Tier 추론 게이트웨이의 라우팅 전략·배포·캐스케이드 튜닝·구현 예시