Report 5. NVIDIA Dynamo 추론 벤치마크
📅 작성일: 2026-03-20 | 상태: 신규
개요
NVIDIA Dynamo 기반 LLM 서빙에서 Aggregated 모드와 Disaggregated 모드의 성능을 비교하는 벤치마크입니다. EKS 환경에서 AIPerf 벤치마크 도구의 4가지 측정 모드를 실행하여, Disaggregated Serving의 KV Router + NIXL Transfer가 실제 워크로드에서 어떤 성능 차이를 만드는지 정량적으로 검증합니다.
배포 코드
이 벤치마크의 EKS 배포 매니페스트는 deploy/nvidia-platform/에 있습니다.
테스트 환경
EKS 클러스터 사양
| 항목 | 구성 |
|---|---|
| EKS 버전 | v1.32 (Auto Mode) |
| GPU 노드 (Prefill) | p4d.24xlarge × 2 (A100 80GB × 8/노드) |
| GPU 노드 (Decode) | g6e.12xlarge × 4 (L40S 48GB × 4/노드) |
| 스토리지 | EFS (모델 저장소), gp3 (etcd/Prometheus) |
| 네트워크 | VPC CNI, EFA 활성화 (p4d 노드) |
소프트웨어 스택
| 컴포넌트 | 버전 |
|---|---|
| NVIDIA Dynamo | v0.9.1 |
| vLLM Runtime | v0.7.x |
| GPU Operator | v24.9.0 |
| AIPerf | v0.9.1 |
| Prometheus + Grafana | kube-prometheus-stack 65.x |
테스트 모델
| 모델 | 파라미터 | 활성 파라미터 | 정밀도 | 아키텍처 |
|---|---|---|---|---|
| Qwen3-30B-A3B-FP8 | 30B | 3B | FP8 | MoE |
MoE (Mixture-of-Experts) 모델을 선택한 이유:
- Disaggregated Serving에서 Expert 라우팅과 KV 캐시 전략의 효과를 명확히 비교 가능
- FP8 양자화로 GPU 메모리 효율 극대화
- 활성 파라미터(3B)가 작아 Decode 워커에 L40S 급 GPU 활용 가능