Mixture of Experts 모델의 아키텍처 개념, 분산 배포 전략, 성능 최적화 원리
vLLM·llm-d·MoE·NeMo — GPU 위에서 실제로 모델을 서빙·분산 추론·파인튜닝하는 AI 프레임워크 계층