AWS Neuron Stack
AWS Neuron 是用于在 AWS 设计的 AI 加速器(Trainium、Inferentia)上执行训练·推理工作负载的软件栈。类似于 NVIDIA 的 CUDA + GPU Operator 组合在 NVIDIA GPU 上发挥的作用,Neuron SDK + Neuron Device Plugin 在 EKS 上将 Trainium/Inferentia 芯片抽象为 Kubernetes 资源。
本文档涵盖在 EKS 上运行 Trainium2/Inferentia2 实例所需的 Neuron 软件栈、Device Plugin、Karpenter 配置、推理框架选择标准。关于 NVIDIA GPU 栈请参阅 NVIDIA GPU 栈,关于节点类型选择请参阅 EKS GPU 节点策略。
| 层次 | 作用 | 核心组件 |
|---|---|---|
| 基础设施自动化 | Neuron 驱动、运行时、Device Plugin | aws-neuron-dkms, neuron-device-plugin |
| 编译器 | 模型 → NEFF(Neuron Executable)编译 | neuronx-cc (Neuron Compiler) |
| 运行时 | NeuronCore 执行、内存管理 | aws-neuron-runtime, neuronx-collectives |
| 推理框架 | 大规模 LLM 服务 | NxD Inference, vLLM Neuron backend, TGI Neuron |
| 观测 | NeuronCore 指标、性能分析 | neuron-monitor, neuron-top, neuron-ls |
1. 为什么选择 Neuron
1.1 选择 Neuron 的三个理由
1) 成本效益(Per-Token TCO)
根据 AWS 官方资料,Trainium2/Inferentia2 相比同等性能 GPU 的每 token 成本更低。特别是在以下条件下效果显著。
- 长期(> 3 个月)持续的稳定推理流量
- 基于 FP8/INT8/BF16 的标准 Transformer 系列模型
- 可应用 AWS Reserved/Savings Plan 的工作负载
2) Capacity 可用性
在 NVIDIA H100/H200/B200 供应紧张的时期,Trainium2 相对容易获得。特别是在美国/亚洲特定地区 p5/p5en 库存不足时,Neuron 成为实际替代方案。
3) 与 Bedrock 的连续性
Bedrock 服务的部分 FM(Claude、Llama、Titan 等)内部在 Neuron 栈上运行。在 Bedrock → Self-hosted 迁移路径中选择 Neuron,可以重用编译的工件和运营模式。
1.2 适合/不适合的工作负载
| 分类 | 工作负载 |
|---|---|
| 适合 | 标准 Llama/Mistral/Qwen 系列推理、大规模长期运营、基于 FP8/BF16 的服务、Bedrock 风格治理 |
| 需注意 | 新架构首次发布模型(支持延迟)、依赖自定义 CUDA 内核的工作负载、部分 AWQ/GPTQ 量化格式 |
| 不适合 | 研究·实验环境中频繁更改模型结构的情况、与 CUDA 专用库(Triton inference server custom kernels)强耦合的代码 |
Neuron vs NVIDIA 决策原则
- 模型生态系统最新性是核心 → NVIDIA GPU (H100/H200/B200)
- 长期运营 TCO / Capacity 是核心 → Trainium2 / Inferentia2
- 与 Bedrock 混合运营 → 优先考虑 Neuron
2. 实例阵容
基于 AWS 官方产品页面和 EC2 用户指南的 2026-04 时点 Neuron 实例阵容。实际区域可用性需在 AWS 控制台确认。
2.1 推理专用实例(Inferentia2)
| 实例 | 芯片数 | NeuronCore | 总加速器内存 | vCPU | 内存 | 网络 |
|---|---|---|---|---|---|---|
| inf2.xlarge | 1× Inferentia2 | 2 | 32 GB | 4 | 16 GB | 最高 15 Gbps |
| inf2.8xlarge | 1× Inferentia2 | 2 | 32 GB | 32 | 128 GB | 最高 25 Gbps |
| inf2.24xlarge | 6× Inferentia2 | 12 | 192 GB | 96 | 384 GB | 50 Gbps |
| inf2.48xlarge | 12× Inferentia2 | 24 | 384 GB | 192 | 768 GB | 100 Gbps |