4개 문서가 "model-serving" 태그에 분류되었습니다

HyperPod Inference Operator (관리형 KV 캐시·지능형 라우팅)

SageMaker HyperPod Inference Operator의 관리형 KV 캐시·지능형 라우팅·DPD를 Tiered Gateway와 비교하고, L2 추론 라우팅 레이어로서의 역할과 한계를 정리

Mixture of Experts 모델의 아키텍처 개념, 분산 배포 전략, 성능 최적화 원리

GPU 인프라·추론 프레임워크·추론 최적화 계층 안내와, LLM 추론 요청 경로 전체의 계층별 튜닝 레버(인퍼런스 게이트웨이·prefill/decode 분리·KV cache-aware 라우팅·LMCache·캐시 히트 전략)를 한 장의 지도로 정리

커스텀 모델 배포·파인튜닝 파이프라인·MLOps 오케스트레이션·지속 학습 파이프라인