Agentic AI 平台模型服务与推理基础设施推理框架推理框架 在 GPU 基础设施上实际进行 LLM 服务·分布式推理·微调的 AI 框架层。包括单节点高性能服务(vLLM)、Kubernetes 原生分布式推理(llm-d)、MoE 模型处理、基于 NVIDIA NeMo 的训练等。 🚀vLLM 模型服务基于 PagedAttention 的高性能 LLM 推理、Continuous Batching、Tensor/Pipeline Parallelism、Multi-LoRA 热插 拔。🔀llm-d 分布式推理Kubernetes 原生分布式推理调度器、KV Cache-aware 路由、Prefix Cache 优化、Disaggregated Serving。🧩MoE 模型服务Mixture of Experts 模型高效服务 — Expert Parallelism、动态路由、内存优化。🧠NeMo 框架基于 NVIDIA NeMo 的大规模训练·微调、分布式学习、EFA 高速网络、检查点保存。⚡Semantic Caching 策略LLM Gateway 级别语义缓存 — 相似度阈值设计、3 层缓存划分(KV/Prompt/Semantic)、可观测性·安全指南。 学习顺序按 vLLM → llm-d → MoE → NeMo 顺序阅读,可以遵循"单节点优化 → 分布式推理 → 大规模 MoE → 训练框架"的渐进难度。