17 篇文档已标记「gpu」

Agentic AI Platform

Agentic AI 平台的架构、构建与运营深度技术文档

Agentic AI 工作负载的技术挑战

Agentic AI 工作负载运营中面临的 5 大核心挑战

EKS GPU 节点策略

EKS Auto Mode、Karpenter、MNG、Hybrid Node 的 GPU 工作负载最优节点策略

EKS Hybrid Nodes Complete Guide

A complete guide for adopting Amazon EKS Hybrid Nodes: architecture, configuration, networking, DNS, GPU servers, cost analysis, and Dynamic Resource Allocation (DRA)

GPU 리소스·관측·Hybrid Node·실전 교훈

2-Tier GPU 오토스케일링·DCGM/vLLM 모니터링·Bifrost→Bedrock Cascade Fallback·Hybrid Node 온프레 통합·대형 MoE 배포 실전 교훈

GPU 基础设施

EKS GPU 节点策略、Karpenter·KEDA·DRA 资源管理、NVIDIA GPU 栈、AWS Neuron 栈

GPU 资源管理

在 EKS 中利用 Karpenter、KEDA、DRA 进行 GPU 资源管理和成本优化

Inference Optimization on EKS

LLM Inference 성능을 극대화하는 EKS 아키텍처 개요 — vLLM, KV Cache-Aware Routing, Disaggregated Serving, LWS 멀티노드, Hybrid Node 통합의 시작점

Llama 4 FM 推理基准测试：GPU vs AWS 自研芯片

对比 GPU 实例（p5、p4d、g6e）和 AWS 自研芯片（Trainium2、Inferentia2）在 vLLM 基础 Llama 4 模型服务中的性能和成本效率的基准测试

MoE 模型服务概念指南

Mixture of Experts 模型的架构概念、分布式部署策略、性能优化原理

NVIDIA Dynamo 推理基准测试

使用 NVIDIA Dynamo 对比聚合式与分离式 LLM 推理性能的基准测试 — 在 EKS 环境中运行 AIPerf 4 种模式

Reference Architecture

Agentic AI Platform 实战部署与配置参考架构

基于 CRIU 的 GPU 无中断迁移（预览）

在 Spot 回收和调度事件中通过 GPU 工作负载 checkpoint/restore 实现无中断迁移的技术现状与 EKS 应用场景分析（实验性）

基于 EKS 的 Agentic AI 开放架构

利用 Amazon EKS 和开源生态构建 Agentic AI 平台指南

基于 llm-d 的 EKS 分布式推理指南

llm-d 架构概念、KV Cache 感知路由、Disaggregated Serving、EKS Auto Mode 集成策略

模型服务与推理基础设施

EKS GPU 节点策略、vLLM/llm-d 推理引擎、MoE 服务、NVIDIA GPU 堆栈指南

自定义模型部署指南

基于 GLM-5.1 案例 — 大型开源模型 EKS 部署实战指南