Llama 4 FM 서빙 벤치마크: GPU vs AWS Custom Silicon
📅 작성일: 2026-02-10 | 수정일: 2026-02-14 | ⏱️ 읽는 시간: 약 9분
개요
AWS EKS 환경에서 vLLM을 이용한 Llama 4 모델 서빙 성능을 5개 시나리오로 비교한 벤치마크 보고서입니다.
한 줄 요약: Llama 4 Scout(109B MoE) 추론에서 AWS 커스텀 실리콘이 NVIDIA GPU 대비 58-67% 낮은 토큰당 비용($0.28~$0.35/1M tokens vs $0.85)을 달성했으며, p5/H100은 **최저 TTFT(120ms)**와 **최고 처리량(4,200 tokens/sec)**으로 지연 민감 워크로드에 최적입니다. Trainium2는 H100 처리량의 83%를 41% 비용으로 제공하여 최고의 성능 대비 비용 비율을 보여줍니다.
5개 시나리오:
- A p5.48xlarge — 8× NVIDIA H100 80GB (GPU 베이스라인)
- B p4d.24xlarge — 8× NVIDIA A100 40GB (이전 세대 GPU)
- C g6e.48xlarge — 8× NVIDIA L40S 48GB (비용 최적화 GPU)
- D trn2.48xlarge — 16× AWS Trainium2 96GB (커스텀 실리콘 학습/추론)
- E inf2.48xlarge — 12× AWS Inferentia2 32GB (커스텀 실리콘 추론 특화)
주요 시사점:
* 공개된 스펙 및 아키텍처 분석 기반 추정치. 입력 512 / 출력 128 토큰.
테스트 환경
인스턴스 사양
5개 테스트 시나리오 · us-east-1 온디맨드 가격
클러스터 구성:
- EKS 버전: 1.31
- 리전: us-east-1 (단일 AZ)
- vLLM 버전: v0.8.3+ (Llama 4 Day 0 지원, MetaShuffling 최적화)
- Neuron SDK: 2.x (Trainium2/Inferentia2 시나리오)
- CUDA: 12.4 (GPU 시나리오)
- 정밀도: BF16 (모든 시나리오)
- 측정 방식: 최소 3회 반복 측정 후 중앙값 사용
테스트 모델
Llama 4 MoE 아키텍처 특징
Llama 4는 Mixture of Experts (MoE) 아키텍처를 채택하여 효율적인 추론을 구현합니다:
- 희소 활성화: 109B 총 파라미터 중 토큰당 17B만 활성화 (Scout 기준)
- Expert 라우팅: 16개 Expert 중 2개만 선택적으로 활성화하여 연산량 절감
- 메모리 트레이드오프: 모든 Expert 가중치를 VRAM에 로드해야 하므로 총 메모리 요구량은 Dense 모델과 유사
- 병렬화 전략: Tensor Parallelism(TP), Pipeline Parallelism(PP), Expert Parallelism(EP), Data Parallelism(DP) 지원
- vLLM MetaShuffling: MoE 추론에 최적화된 토큰 라우팅 및 메모리 관리
Scout vs Maverick 배포 요구사항
- Scout (109B): 단일 H100 80GB에서 BF16 배포 가능. 8×H100으로 1M 컨텍스트 지원
- Maverick (400B): 최소 8×H100 필요. FP8 양자화 버전 제공. 8×H100으로 ~430K 컨텍스트 지원