Disaggregated Serving + LWS 멀티노드
Prefill/Decode 분리 아키텍처와 NIXL 공통 KV 전송 엔진, LeaderWorkerSet 기반 700B+ 대형 MoE 모델 멀티노드 배포 가이드
Prefill/Decode 분리 아키텍처와 NIXL 공통 KV 전송 엔진, LeaderWorkerSet 기반 700B+ 대형 MoE 모델 멀티노드 배포 가이드
vLLM PagedAttention·Continuous Batching·FP8 KV Cache 등 핵심 기술 정리와 llm-d/NVIDIA Dynamo의 KV Cache-Aware Routing 비교 및 Gateway 구성
llm-d 架构概念、KV Cache 感知路由、Disaggregated Serving、EKS Auto Mode 集成策略
以 Bedrock AgentCore 为基准,对比自建 EKS(vLLM、llm-d、Bifrost/LiteLLM)在功能、性能和成本方面的基准测试计划
vLLM·llm-d·MoE·NeMo — 在 GPU 上实际进行模型服务·分布式推理·微调的 AI 框架层
EKS GPU 节点策略、vLLM/llm-d 推理引擎、MoE 服务、NVIDIA GPU 堆栈指南