8 篇文档已标记「scope:tech」

AWS Neuron Stack — Trainium2/Inferentia2 on EKS

在 EKS 上运行 AWS 定制 AI 加速器（Trainium2/Inferentia2）的 Neuron SDK、Device Plugin、NxD Inference 指南

Prefill/Decode 분리 아키텍처와 NIXL 공통 KV 전송 엔진, LeaderWorkerSet 기반 700B+ 대형 MoE 모델 멀티노드 배포 가이드

2-Tier GPU 오토스케일링·DCGM/vLLM 모니터링·Bifrost→Bedrock Cascade Fallback·Hybrid Node 온프레 통합·대형 MoE 배포 실전 교훈

EKS GPU 节点策略、Karpenter·KEDA·DRA 资源管理、NVIDIA GPU 栈、AWS Neuron 栈

LLM Inference 성능을 극대화하는 EKS 아키텍처 개요 — vLLM, KV Cache-Aware Routing, Disaggregated Serving, LWS 멀티노드, Hybrid Node 통합의 시작점

vLLM PagedAttention·Continuous Batching·FP8 KV Cache 등 핵심 기술 정리와 llm-d/NVIDIA Dynamo의 KV Cache-Aware Routing 비교 및 Gateway 구성

在 Spot 回收和调度事件中通过 GPU 工作负载 checkpoint/restore 实现无中断迁移的技术现状与 EKS 应用场景分析（实验性）

vLLM·llm-d·MoE·NeMo — 在 GPU 上实际进行模型服务·分布式推理·微调的 AI 框架层