跳到主要内容

推理框架

在 GPU 基础设施上实际进行 LLM 服务·分布式推理·微调的 AI 框架层。包括单节点高性能服务（vLLM）、Kubernetes 原生分布式推理（llm-d）、MoE 模型处理、基于 NVIDIA NeMo 的训练等。

vLLM 模型服务

基于 PagedAttention 的高性能 LLM 推理、Continuous Batching、Tensor/Pipeline Parallelism、Multi-LoRA 热插拔。

llm-d 分布式推理

Kubernetes 原生分布式推理调度器、KV Cache-aware 路由、Prefix Cache 优化、Disaggregated Serving。

MoE 模型服务

Mixture of Experts 模型高效服务 — Expert Parallelism、动态路由、内存优化。

基于 NVIDIA NeMo 的大规模训练·微调、分布式学习、EFA 高速网络、检查点保存。

Semantic Caching 策略

LLM Gateway 级别语义缓存 — 相似度阈值设计、3 层缓存划分（KV/Prompt/Semantic）、可观测性·安全指南。

学习顺序

按 vLLM → llm-d → MoE → NeMo 顺序阅读，可以遵循"单节点优化 → 分布式推理 → 大规模 MoE → 训练框架"的渐进难度。