10 篇文档已标记「inference」

Disaggregated Serving + LWS 멀티노드

Prefill/Decode 분리 아키텍처와 NIXL 공통 KV 전송 엔진, LeaderWorkerSet 기반 700B+ 대형 MoE 모델 멀티노드 배포 가이드

2-Tier GPU 오토스케일링·DCGM/vLLM 모니터링·Bifrost→Bedrock Cascade Fallback·Hybrid Node 온프레 통합·대형 MoE 배포 실전 교훈

LLM Inference 성능을 극대화하는 EKS 아키텍처 개요 — vLLM, KV Cache-Aware Routing, Disaggregated Serving, LWS 멀티노드, Hybrid Node 통합의 시작점

vLLM PagedAttention·Continuous Batching·FP8 KV Cache 등 핵심 기술 정리와 llm-d/NVIDIA Dynamo의 KV Cache-Aware Routing 비교 및 Gateway 구성

对比 GPU 实例（p5、p4d、g6e）和 AWS 自研芯片（Trainium2、Inferentia2）在 vLLM 基础 Llama 4 模型服务中的性能和成本效率的基准测试

使用 NVIDIA Dynamo 对比聚合式与分离式 LLM 推理性能的基准测试 — 在 EKS 环境中运行 AIPerf 4 种模式

在 SageMaker 训练、在 EKS 服务的混合 ML 架构

以 Bedrock AgentCore 为基准，对比自建 EKS（vLLM、llm-d、Bifrost/LiteLLM）在功能、性能和成本方面的基准测试计划

vLLM·llm-d·MoE·NeMo — 在 GPU 上实际进行模型服务·分布式推理·微调的 AI 框架层

EKS GPU 节点策略、vLLM/llm-d 推理引擎、MoE 服务、NVIDIA GPU 堆栈指南