跳到主要内容

13 篇文档已标记「vllm」

查看所有标签

Inference Optimization on EKS

LLM Inference 성능을 극대화하는 EKS 아키텍처 개요 — vLLM, KV Cache-Aware Routing, Disaggregated Serving, LWS 멀티노드, Hybrid Node 통합의 시작점

vLLM 模型服务

vLLM 的 PagedAttention、并行化策略、Multi-LoRA、硬件支持架构

推理框架

vLLM·llm-d·MoE·NeMo — 在 GPU 上实际进行模型服务·分布式推理·微调的 AI 框架层