Agentic AI 平台模型服务与推理基础设施GPU 基础设施GPU 基础设施 在 Kubernetes 上处理使用哪些 GPU 实例·如何调度·使用哪些驱动和分区栈进行管理的层次。只有建立了这一层,上层的推理框架(vLLM·llm-d 等)才能稳定运行。 🖥️EKS GPU 节点策略Auto Mode vs Karpenter vs Managed Node Group vs Hybrid Node — 按工作负载选择最佳节点、安全强化、故障排查。📊GPU 资源管理Karpenter NodePool、KEDA 扩展、DRA 动态资源分配、Spot/Consolidation 成本优化策略。💚NVIDIA GPU 栈GPU Operator ClusterPolicy、DCGM 监控、MIG·Time-Slicing 分区、Dynamo 推理框架。🧭AWS Neuron 栈Trainium2/Inferentia2、Neuron SDK 2.x、aws-neuron-device-plugin、NxD Inference、vLLM Neuron backend。 选择指南如果以 NVIDIA 为中心,请按节点策略 → 资源管理 → NVIDIA 栈顺序阅读;如果考虑 AWS 定制芯片(Trainium/Inferentia),请按节点策略 → Neuron 栈顺序阅读。