모델 서빙 & 추론 인프라
GPU/가속기 위에서 LLM을 배포하고 서빙하는 방법을 다룹니다.
- 4. GPU 리소스 관리 — MIG, Time-Slicing 등 GPU 리소스 설정
- 5. vLLM 모델 서빙 — 기본 모델 서빙 구성
- 6. MoE 모델 서빙 — Mixture of Experts 모델 서빙
- 7. llm-d 분산 추론 — Kubernetes 네이티브 분산 추론 (Auto Mode & Karpenter)
- 8. NeMo 프레임워크 — 학습 및 서빙 프레임워크
- 20. EKS GPU 노드 전략 — Auto Mode + Karpenter + Hybrid Node 구성