2 篇文档已标记「multi-lora」

vLLM 模型服务

vLLM 的 PagedAttention、并行化策略、Multi-LoRA、硬件支持架构

通过 LoRA Fine-tuning、Multi-LoRA 热交换、SLM Cascade Routing 构建按领域优化的模型服务流水线