Llama 4 FM 서빙 벤치마크: GPU vs AWS Custom Silicon
📅 작성일: 2026-02-10 | 수정일: 2026-02-14 | ⏱️ 읽 는 시간: 약 9분
개요
AWS EKS 환경에서 vLLM을 이용한 Llama 4 모델 서빙 성능을 5개 시나리오로 비교한 벤치마크 보고서입니다.
한 줄 요약: Llama 4 Scout(109B MoE) 추론에서 AWS 커스텀 실리콘이 NVIDIA GPU 대비 58-67% 낮은 토큰당 비용($0.28~$0.35/1M tokens vs $0.85)을 달성했으며, p5/H100은 **최저 TTFT(120ms)**와 **최고 처리량(4,200 tokens/sec)**으로 지연 민감 워크로드에 최적입니다. Trainium2는 H100 처리량의 83%를 41% 비용으로 제공하여 최고의 성능 대비 비용 비율을 보여줍니다.
5개 시나리오:
- A p5.48xlarge — 8× NVIDIA H100 80GB (GPU 베이스라인)
- B p4d.24xlarge — 8× NVIDIA A100 40GB (이전 세대 GPU)
- C g6e.48xlarge — 8× NVIDIA L40S 48GB (비용 최적화 GPU)
- D trn2.48xlarge — 16× AWS Trainium2 96GB (커스텀 실리콘 학습/추론)
- E inf2.48xlarge — 12× AWS Inferentia2 32GB (커스텀 실리콘 추론 특화)
주요 시사점:
* 공개된 스펙 및 아키텍처 분석 기반 추정치. 입력 512 / 출력 128 토큰.
테스트 환경
클러스터 구성:
- EKS 버전: 1.31
- 리전: us-east-1 (단일 AZ)
- vLLM 버전: v0.8.3+ (Llama 4 Day 0 지원, MetaShuffling 최적화)
- Neuron SDK: 2.x (Trainium2/Inferentia2 시나리오)
- CUDA: 12.4 (GPU 시나리오)
- 정밀도: BF16 (모든 시나리오)
- 측정 방식: 최소 3회 반복 측정 후 중앙값 사용
테스트 모델
Llama 4 MoE 아키텍처 특징
Llama 4는 Mixture of Experts (MoE) 아키텍처를 채택하여 효율적인 추론을 구현합니다:
- 희소 활성화: 109B 총 파라미터 중 토큰당 17B만 활성화 (Scout 기준)
- Expert 라우팅: 16개 Expert 중 2개만 선택적으로 활성화하여 연산량 절감
- 메모리 트레이드오프: 모든 Expert 가중치를 VRAM에 로드해야 하므로 총 메모리 요구량은 Dense 모델과 유사
- 병렬화 전략: Tensor Parallelism(TP), Pipeline Parallelism(PP), Expert Parallelism(EP), Data Parallelism(DP) 지원
- vLLM MetaShuffling: MoE 추론에 최적화된 토큰 라우팅 및 메모리 관리
- Scout (109B): 단일 H100 80GB에서 BF16 배포 가능. 8×H100으로 1M 컨텍스트 지원
- Maverick (400B): 최소 8×H100 필요. FP8 양자화 버전 제공. 8×H100으로 ~430K 컨텍스트 지원
벤치마크 결과
1. 첫 토큰 생성 시간 (TTFT)
Time to First Token은 사용자 경험에 직접적인 영향을 미치는 핵심 지표입니다. 프롬프트 처리(prefill) 단계의 연산 성능을 반영합니다.
Llama 4 Scout
낮을수록 좋음Llama 4 Maverick
낮을수록 좋음📊 상세 데이터 테이블
Llama 4 Scout (입력 512 토큰)
| 시나리오 | 인스턴스 | TTFT (ms) | 기준 대비 |
|---|---|---|---|
| A | p5/H100 | 120 | 베이스라인 |
| B | p4d/A100 | 280 | +133% |
| C | g6e/L40S | 350 | +192% |
| D | trn2 | 150 | +25% |
| E | inf2 | 200 | +67% |
Llama 4 Maverick (입력 512 토큰)
| 시나리오 | 인스턴스 | TTFT (ms) |
|---|---|---|
| A | p5/H100 | 250 |
| D | trn2 | 300 |
2. 토큰 간 지연 시간 (ITL)
Inter-Token Latency는 디코딩 단계에서 각 토큰 생성 간의 지연을 측정합니다. 스트리밍 응답의 부드러움을 결정합니다.
Llama 4 Scout
낮을수록 좋음Llama 4 Maverick
낮을수록 좋음📊 상세 데이터 테이블
Llama 4 Scout
| 시나리오 | ITL (ms) | 기준 대비 |
|---|---|---|
| A | 8 | 베이스라인 |
| B | 18 | +125% |
| C | 22 | +175% |
| D | 10 | +25% |
| E | 14 | +75% |
Llama 4 Maverick
| 시나리오 | ITL (ms) |
|---|---|
| A | 12 |
| D | 15 |
3. 추론 처리량
초당 토큰 생성량은 시스템의 전체적인 추론 능력을 나타냅니다. 배치 처리 및 멀티 사용자 서빙 시나리오에서 중요합니다.
Llama 4 Scout
높을수록 좋음Llama 4 Maverick
높을수록 좋음📊 상세 데이터 테이블
Llama 4 Scout
| 시나리오 | Tokens/sec | 기준 대비 |
|---|---|---|
| A | 4,200 | 베이스라인 |
| B | 1,800 | -57% |
| C | 1,400 | -67% |
| D | 3,500 | -17% |
| E | 2,800 | -33% |
Llama 4 Maverick
| 시나리오 | Tokens/sec |
|---|---|
| A | 2,800 |
| D | 2,200 |