Llama 4 FM 推理基准测试：GPU vs AWS 自研芯片

📅 创建日期：2026-02-10 | 更新日期：2026-02-14 | ⏱️ 阅读时间：约 9 分钟

概述

在 AWS EKS 环境中，对基于 vLLM 的 Llama 4 模型在 5 种场景下进行推理性能对比的基准测试报告。

一句话总结：对于 Llama 4 Scout（109B MoE）推理，AWS 自研芯片实现了比 NVIDIA GPU 低 58-67% 的每 Token 成本（$0.28~$0.35/1M tokens vs $0.85），而 p5/H100 提供了最低的 TTFT（120ms）和最高吞吐量（4,200 tokens/sec），是延迟敏感工作负载的最优选择。Trainium2 以 H100 41% 的成本提供了 83% 的性能，展现了最佳性价比。

5 种场景：

A p5.48xlarge — 8x NVIDIA H100 80GB（GPU 基准）
B p4d.24xlarge — 8x NVIDIA A100 40GB（上一代 GPU）
C g6e.48xlarge — 8x NVIDIA L40S 48GB（成本优化 GPU）
D trn2.48xlarge — 16x AWS Trainium2 96GB（自研芯片训练/推理）
E inf2.48xlarge — 12x AWS Inferentia2 32GB（自研芯片推理优化）

核心要点：

Metric	A: p5/H100	B: p4d/A100	C: g6e/L40S	D: trn2	E: inf2
TTFT (Time to First Token)	120ms	280ms	350ms	150ms	200ms
ITL (Inter-Token Latency)	8ms	18ms	22ms	10ms	14ms
Throughput (tokens/sec)	4,200	1,800	1,400	3,500	2,800
Cost ($/1M tokens)	$0.85	$0.72	$0.52	$0.35	$0.28

* Projected values based on published specs and architectural analysis. Input 512 / Output 128 tokens.

测试环境

Instance Specifications

5 Test Scenarios · us-east-1 On-Demand pricing

Spec	A: p5.48xl	B: p4d.24xl	C: g6e.48xl	D: trn2.48xl	E: inf2.48xl
Accelerator	8× H100	8× A100	8× L40S	16× Trainium2	12× Inferentia2
Memory per Chip	80 GB HBM3	40 GB HBM2	48 GB GDDR6	96 GB HBM	32 GB HBM
Total Accelerator Memory	640 GB	320 GB	384 GB	1,536 GB	384 GB
Network Bandwidth	3,200 Gbps	400 Gbps	400 Gbps	3,200 Gbps	200 Gbps
On-Demand Price	$98.32	$21.96	$54.91	~$45.00	$12.89
Cost per Accelerator-Hour	$12.29	$2.75	$6.86	~$2.81	$1.07
Chip Interconnect	NVSwitch 900GB/s	NVSwitch 600GB/s	PCIe Gen5	NeuronLink	NeuronLink 192GB/s

集群配置：

EKS 版本：1.31
区域：us-east-1（单可用区）
vLLM 版本：v0.8.3+（Llama 4 首日支持，MetaShuffling 优化）
Neuron SDK：2.x（Trainium2/Inferentia2 场景）
CUDA：12.4（GPU 场景）
精度：BF16（所有场景）
测量方法：至少 3 次重复测量的中位数

测试模型

Llama 4 Scout

Total Parameters

109B

Active Parameters

17B per token

Architecture

MoE (16 routed experts + 1 shared)

Active Experts

2 per token

Context Window

10M tokens

Hidden Dimension

8,192

Layers

80

Attention Heads

64

KV Heads

8

Position Encoding

iRoPE

Min Hardware

Single H100 80GB (BF16)

vLLM Context (8×H100)

1M tokens

Llama 4 Maverick

Total Parameters

400B

Active Parameters

17B per token

Architecture

MoE (128 routed experts + 1 shared)

Active Experts

2 per token

Context Window

10M tokens

Min Hardware

8× H100 80GB (BF16)

FP8 Quantization

Available

vLLM Context (8×H100)

~430K tokens

Llama 4 MoE 架构特性

Llama 4 采用 Mixture of Experts（MoE） 架构实现高效推理：

稀疏激活：每个 Token 仅激活总 109B 参数中的 17B（Scout）
专家路由：16 个专家中仅选择性激活 2 个，减少计算量
内存权衡：所有专家权重都需要加载到显存，因此总内存需求与稠密模型相当
并行化策略：支持张量并行（TP）、流水线并行（PP）、专家并行（EP）、数据并行（DP）
vLLM MetaShuffling：针对 MoE 推理优化的 Token 路由和内存管理

Scout 与 Maverick 部署要求

Scout（109B）：可在单张 H100 80GB 上以 BF16 部署。8xH100 支持 1M 上下文
Maverick（400B）：最少需要 8xH100。提供 FP8 量化版本。8xH100 支持约 430K 上下文

基准测试结果

1. 首 Token 延迟（TTFT）

首 Token 延迟直接影响用户体验，反映了提示处理（prefill）阶段的计算性能。

Llama 4 Scout

Lower is better

A: p5/H100

120

✓ Best

B: p4d/A100

280

C: g6e/L40S

350

D: trn2

150

E: inf2

200

Llama 4 Maverick

Lower is better

A: p5/H100

250

✓ Best

D: trn2

300

详细数据表

Llama 4 Scout（512 输入 Token）

场景	实例	TTFT（ms）	vs 基准
A	p5/H100	120	基准
B	p4d/A100	280	+133%
C	g6e/L40S	350	+192%
D	trn2	150	+25%
E	inf2	200	+67%

Llama 4 Maverick（512 输入 Token）

场景	实例	TTFT（ms）
A	p5/H100	250
D	trn2	300

2. Token 间延迟（ITL）

Token 间延迟衡量解码阶段每个 Token 生成之间的延迟，决定了流式响应的流畅度。

Llama 4 Scout

Lower is better

A: p5/H100

✓ Best

B: p4d/A100

C: g6e/L40S

D: trn2

E: inf2

Llama 4 Maverick

Lower is better

A: p5/H100

✓ Best

D: trn2

详细数据表

Llama 4 Scout

场景	ITL（ms）	vs 基准
A	8	基准
B	18	+125%
C	22	+175%
D	10	+25%
E	14	+75%

Llama 4 Maverick

场景	ITL（ms）
A	12
D	15

3. 推理吞吐量

每秒生成的 Token 数表示系统的整体推理能力。对批处理和多用户服务场景至关重要。

Llama 4 Scout

Higher is better

A: p5/H100

4,200

✓ Best

B: p4d/A100

1,800

C: g6e/L40S

1,400

D: trn2

3,500

E: inf2

2,800

Llama 4 Maverick

Higher is better

A: p5/H100

2,800

✓ Best

D: trn2

2,200

详细数据表

Llama 4 Scout

场景	Tokens/sec	vs 基准
A	4,200	基准
B	1,800	-57%
C	1,400	-67%
D	3,500	-17%
E	2,800	-33%

Llama 4 Maverick

场景	Tokens/sec
A	2,800
D	2,200

4. 并发请求扩展

衡量并发请求增加时的吞吐量变化。HBM 内存带宽和加速器互联决定了扩展特性。

Concurrent Request Scaling (Llama 4 Scout)

Throughput (tokens/sec) by concurrent request count

Concurrent Requests	A: p5/H100	B: p4d/A100	C: g6e/L40S	D: trn2	E: inf2
1	4,200	1,800	1,400	3,500	2,800
4	14,800	5,600	4,200	12,500	9,800
8	24,500	8,400	6,800	21,000	16,200
16	35,200	11,200	8,500	30,800	22,400
32	42,000	12,800	9,200	38,500	28,000

* Throughput scales sub-linearly due to memory bandwidth and compute contention

详细数据表

并发请求	A：p5/H100	B：p4d/A100	C：g6e/L40S	D：trn2	E：inf2
1	4,200	1,800	1,400	3,500	2,800
4	14,800	5,600	4,200	12,500	9,800
8	24,500	8,400	6,800	21,000	16,200
16	35,200	11,200	8,500	30,800	22,400
32	42,000	12,800	9,200	38,500	28,000

5. 成本效率

每 Token 成本（$/1M tokens）通过将小时实例成本除以吞吐量计算。这是生产服务中最重要的决策指标。

Cost Efficiency ($/1M tokens) — Llama 4 Scout

Lower is better

A: p5/H100

$0.85

B: p4d/A100

$0.72

C: g6e/L40S

$0.52

D: trn2

$0.35

E: inf2

$0.28

Most Cost-Efficient

Scenario	Cost/Hour	Throughput	$/1M tokens
A: p5/H100	$98.32	4,200	$0.85
B: p4d/A100	$21.96	1,800	$0.72
C: g6e/L40S	$54.91	1,400	$0.52
D: trn2	$45.00	3,500	$0.35
E: inf2	$12.89	2,800	$0.28

Llama 4 Maverick — $/1M tokens

Scenario	Cost/Hour	Throughput	$/1M tokens
A: p5/H100	$98.32	2,800	$1.28
D: trn2	$45.00	2,200	$0.74

详细数据表

Llama 4 Scout

场景	小时成本	吞吐量	$/1M tokens	vs 基准
A	$98.32	4,200	$0.85	基准
B	$21.96	1,800	$0.72	-15%
C	$54.91	1,400	$0.52	-39%
D	$45.00	3,500	$0.35	-59%
E	$12.89	2,800	$0.28	-67%

分析与核心发现

58-67% lower cost per token

AWS custom silicon (Trainium2, Inferentia2) delivers 58-67% lower cost per million tokens compared to NVIDIA H100 for Llama 4 Scout inference.

$0.28 (inf2) vs $0.85 (H100)

H100 leads in raw speed

p5.48xlarge (H100) achieves the lowest TTFT (120ms) and highest throughput (4,200 tokens/sec), making it ideal for latency-sensitive workloads.

120ms TTFT, 4,200 tokens/sec

Trainium2 balances performance and cost

trn2.48xlarge achieves 83% of H100 throughput at 41% of the cost per token, offering the best performance-to-cost ratio for general production workloads.

3,500 tokens/sec at $0.35/1M tokens

MoE enables single-GPU deployment

Llama 4 Scout's MoE architecture (17B active out of 109B total) allows deployment on a single H100 GPU while maintaining performance comparable to dense models of similar active parameter count.

109B params, only 17B active per token

H100 scales 3.2× better under load

Under 32 concurrent requests, p5/H100 achieves 42,000 tokens/sec vs g6e/L40S at 9,200 — a 4.6× throughput gap that widens under concurrent load due to HBM bandwidth advantages.

42,000 vs 9,200 tokens/sec @32 concurrent

GPU 与自研芯片的权衡

方面	GPU（H100/A100/L40S）	自研芯片（trn2/inf2）
性能	最高原始性能（H100）	H100 的 67-83%
成本	高（$0.52-$0.85/1M tokens）	低（$0.28-$0.35/1M tokens）
生态系统	CUDA，丰富的库	Neuron SDK，依赖 AWS
灵活性	支持所有框架	限于 vLLM/Neuron 支持的模型
扩展性	NVSwitch 高带宽	NeuronLink，支持大规模集群
可用性	有限（供不应求）	相对更容易获取

MoE 架构对性能的影响

Llama 4 的 MoE 架构对推理性能产生以下影响：

内存带宽瓶颈：频繁的专家权重加载使 HBM 带宽成为关键瓶颈
动态路由开销：每 Token 的专家选择需要额外计算
专家激活不均衡：负载集中在特定专家时可能降低并行效率
KV Cache 优化：MoE 的稀疏激活使得 KV Cache 效率相比稠密模型更优

按工作负载的建议

Workload Characteristics	Recommended	Rationale
Dev/Staging, Small Scale	E: inf2	Lowest cost $0.28/1M tokens
Latency-Sensitive (Finance, Real-time)	A: p5/H100	120ms TTFT, 8ms ITL
General Production	D: trn2	Best perf/cost ratio, 83% H100 speed
Large-Scale Batch Processing	D: trn2	High throughput at 41% cost
Budget-Constrained Production	E: inf2	67% cost savings vs H100
Maverick (400B) Serving	A: p5/H100 or D: trn2	Sufficient memory for 400B MoE
Multi-Model Serving	C: g6e/L40S	48GB/GPU, good for multiple small models

A: p5/H100

Latency-Sensitive/Max Performance

Complexity: Low

Performance: Maximum

Cost: Very High

D: trn2

General Production

Complexity: Medium (Neuron SDK)

Performance: High

Cost: Low

E: inf2

Cost-Optimized/Dev/Staging

Complexity: Medium (Neuron SDK)

Performance: Moderate-High

Cost: Lowest

C: g6e/L40S

Multi-Model/Budget GPU

Complexity: Low

Performance: Moderate

Cost: Medium

场景选择指南

工作负载需求检查
├── 需要最低延迟？ ──→ A：p5/H100（120ms TTFT）
├── 最低成本优先？ ──→ E：inf2（$0.28/1M tokens）
├── 性能/成本平衡？ ──→ D：trn2（83% 性能，41% 成本）
├── Maverick（400B）服务？ ──→ A：p5/H100 或 D：trn2
├── 多模型服务？ ──→ C：g6e/L40S（48GB/GPU）
└── 现有 GPU 基础设施？ ──→ B：p4d/A100（性价比 GPU）

配置说明

vLLM 部署设置

Llama 4 Scout（GPU 场景）：

vllm serve meta-llama/Llama-4-Scout-17B-16E \
  --tensor-parallel-size 8 \
  --max-model-len 1000000 \
  --dtype bfloat16

Llama 4 Scout（Neuron/Trainium2）：

vllm serve meta-llama/Llama-4-Scout-17B-16E \
  --device neuron \
  --tensor-parallel-size 16 \
  --max-model-len 1000000

Neuron SDK 兼容性说明

Neuron SDK 版本管理

Trainium2/Inferentia2 需要 AWS Neuron SDK 2.x 或更高版本
vLLM 的 Neuron 后端需要单独安装：pip install vllm[neuron]
并非所有 Llama 4 模型都在 Neuron 上验证过——请查看官方兼容性列表
FP8 量化仅在 GPU 场景中支持（Maverick）

成本优化策略

Spot 实例使用：批量推理工作负载可节省 50-70% 成本（可接受中断时）
EC2 Capacity Blocks：为 Trainium2 实例预留分配以确保可用性
自动扩缩：基于 Karpenter + KEDA 的 GPU 指标扩缩（详见：GPU 资源管理）
模型量化：通过 FP8/INT8 量化减少内存使用并提升吞吐量

参考资料

数据可靠性声明

本基准测试中的数据是基于 Meta、AWS、NVIDIA 和 vLLM 项目发布的规格和基准数据的估算值。实际性能可能因工作负载特性、输入长度、批次大小和模型配置而异。建议在生产部署前在实际环境中进行基准测试。

概述​

测试环境​

测试模型​

Llama 4 MoE 架构特性​

基准测试结果​

1. 首 Token 延迟（TTFT）​

Llama 4 Scout

Llama 4 Maverick

2. Token 间延迟（ITL）​

Llama 4 Scout

Llama 4 Maverick

3. 推理吞吐量​

Llama 4 Scout

Llama 4 Maverick

4. 并发请求扩展​

Concurrent Request Scaling (Llama 4 Scout)

5. 成本效率​

Cost Efficiency ($/1M tokens) — Llama 4 Scout

Llama 4 Maverick — $/1M tokens

分析与核心发现​

GPU 与自研芯片的权衡​

MoE 架构对性能的影响​

按工作负载的建议​

场景选择指南​

配置说明​

vLLM 部署设置​

Neuron SDK 兼容性说明​

成本优化策略​

参考资料​

概述

测试环境

测试模型

Llama 4 MoE 架构特性

基准测试结果

1. 首 Token 延迟（TTFT）

2. Token 间延迟（ITL）

3. 推理吞吐量

4. 并发请求扩展

5. 成本效率

分析与核心发现

GPU 与自研芯片的权衡

MoE 架构对性能的影响

按工作负载的建议

场景选择指南

配置说明

vLLM 部署设置

Neuron SDK 兼容性说明

成本优化策略

参考资料