Disaggregated Serving + LWS 멀티노드
Prefill/Decode 분리 아키텍처와 NIXL 공통 KV 전송 엔진, LeaderWorkerSet 기반 700B+ 대형 MoE 모델 멀티노드 배포 가이드
Prefill/Decode 분리 아키텍처와 NIXL 공통 KV 전송 엔진, LeaderWorkerSet 기반 700B+ 대형 MoE 모델 멀티노드 배포 가이드
NVIDIA Dynamo 기반 Aggregated/Disaggregated LLM 서빙 성능 비교 벤치마크 — EKS 환경 AIPerf 4가지 모드 실행