跳到主要内容

GPU 基础设施

在 Kubernetes 上处理使用哪些 GPU 实例·如何调度·使用哪些驱动和分区栈进行管理的层次。只有建立了这一层,上层的推理框架(vLLM·llm-d 等)才能稳定运行。

选择指南

如果以 NVIDIA 为中心,请按节点策略 → 资源管理 → NVIDIA 栈顺序阅读;如果考虑 AWS 定制芯片(Trainium/Inferentia),请按节点策略 → Neuron 栈顺序阅读。