GPU 基础设施

在 Kubernetes 上处理使用哪些 GPU 实例·如何调度·使用哪些驱动和分区栈进行管理的层次。只有建立了这一层，上层的推理框架（vLLM·llm-d 等）才能稳定运行。

选择指南

如果以 NVIDIA 为中心，请按节点策略 → 资源管理 → NVIDIA 栈顺序阅读；如果考虑 AWS 定制芯片（Trainium/Inferentia），请按节点策略 → Neuron 栈顺序阅读。