Inference Gateway 및 Dynamic Routing
Kgateway 기반 AI 모델 추론 요청의 동적 라우팅 및 로드 밸런싱 구성
Kgateway 기반 AI 모델 추론 요청의 동적 라우팅 및 로드 밸런싱 구성
vLLM 기반 Llama 4 모델 서빙에서 GPU 인스턴스(p5, p4d, g6e)와 AWS 커스텀 실리콘(Trainium2, Inferentia2)의 성능 및 비용 효율성 비교 벤치마크
SageMaker에서 학습하고 EKS에서 서빙하는 하이브리드 ML 아키텍처
vLLM을 활용한 Foundation Model 배포, Kubernetes 통합, 성능 최적화 전략