跳到主要内容

模型服务与推理基础设施

介绍如何在 GPU/加速器上部署和服务 LLM。从 EKS 基础设施层到推理引擎、分布式服务、GPU 软件栈、训练框架，按顺序组织。

EKS GPU 节点策略

Auto Mode、Karpenter、Managed Node Group、Hybrid Node 的 GPU 工作负载最优节点策略。包含安全加固及故障排除指南。

GPU 资源管理

基于 Karpenter 的 GPU 节点伸缩、KEDA 自动伸缩、DRA 动态资源分配、Spot/Consolidation 成本优化策略。

vLLM 模型服务

基于 PagedAttention 的高性能 LLM 推理引擎。模型部署、性能优化、Continuous Batching、Tensor Parallelism 配置指南。

llm-d 分布式推理

Kubernetes 原生分布式推理调度器。KV Cache 感知路由、Prefix Cache 优化、Disaggregated Serving 架构。

MoE 模型服务

Mixture of Experts 模型的高效服务。Expert Parallelism、动态路由、内存优化策略。

NVIDIA GPU 堆栈

GPU Operator、DCGM 监控、MIG/Time-Slicing 分区、Dynamo 推理框架等 NVIDIA GPU 软件栈指南。

基于 NVIDIA NeMo 的大规模模型训练与微调。分布式训练、EFA 高速网络、检查点策略。

学习顺序

从基础设施开始：EKS GPU 节点策略 → GPU 资源管理 → vLLM 模型服务 → llm-d 分布式推理，按此顺序阅读可以理解在 GPU 基础设施上构建推理服务的完整流程。