GPU 리소스·관측·Hybrid Node·실전 교훈
개요
LLM 서빙 운영 비용의 대부분은 GPU 가동 시간이며, 비용 효율성을 확보하려면 오토스케일링·관측성·Fallback·온프레미스 통합이 유기적으로 맞물려야 합니다. 본 문서는 2-Tier 스케일링, DCGM/vLLM 모니터링, Bifrost→Bedrock Cascade Fallback, EKS Hybrid Node 통합, 그리고 대형 MoE 모델 배포에서 축적된 실전 교훈을 정리합니다.
GPU 리소스 관리 & 오토스케일링
2-Tier 스케일링 아키텍처
LLM 서빙에서는 Pod 스케일링과 노드 스케일링을 2단계로 구성합니다.